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Сангите и Иогешу 


ооо ооо ооо овоновово ооо ово ьюво ое‘ вое: 


Предисловие 


Сначала программирование было для меня простым увлечением. Я изучил 
азы по книге «\У1зиа| Ваѕіс для чайников», а потом стал читать другие книги, 
чтобы узнать больше. Но алгоритмы мне никак не давались. Помню, как 
я смаковал оглавление своей первой книги по алгоритмам и думал: «Наконец- 
то я все узнаю!» Но материал оказался слишком сложным, и я сдался через 
несколько недель. Только благодаря хорошему преподавателю теории алго- 
ритмов я понял, насколько простые и элегантные идеи заложены в ее основу. 


Через несколько лет я написал свое первое иллюстрированное сообщение 
в блоге. Сам я визуал, поэтому мне нравится наглядный стиль изложения. 
С тех пор я создал немало иллюстрированных материалов по функциональ- 
ному программированию, Сі, машинному обучению и параллелизму. Кстати 
говоря, в начале своей карьеры я писал довольно посредственно. Объяснять 
научные концепции трудно. Чтобы придумать хорошие примеры, требуется 
время, чтобы объяснить сложную концепцию — тоже. Проще всего умолчать 
о сложных моментах. Я думал, что у меня все хорошо получается, пока по- 
сле одной из моих популярных публикаций ко мне не обратился коллега со 
словами: «Я прочитал твой материал, но все равно ничего не понял». Мнееще 
предстояло многое узнать о том, как пишутся научные тексты. 


В самом разгаре работы над иллюстрированными публикациями в блоге 
ко мне обратилось издательство Мапитв с предложением написать иллю- 
стрированную книгу. Оказалось, что редакторы Мапитв хорошо умеют объ- 
яснять научные концепции, и они показали мне, как следует учить других. 
У меня была совершенно определенная цель: мне хотелось создать книгу, 
которая бы объясняла сложные научные темы и легко читалась. С момента 
написания моего первого сообщения в блоге я прошел длинный путь; на- 
деюсь, моя книга покажется вам простой и содержательной. 
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та Моррисона (ВоБегё Моггіѕоп), Санкара Раманатана (Ѕапкаг Катапа ап), 
Сандера Россела (Зап4ег В.о5$е]), Дуга Спарлинага (Роир Ѕрагііпе) и Дэми- 
ена Уайта (Оатіеп \/ВКе). 


Спасибо всем, кто помог мне в достижении цели: сотрудникам Р/азйки, 
научившим меня программировать; многочисленным друзьям, которые 
помогали мне в работе — рецензировали главы, делились советами и пред- 
лагали разные варианты объяснений. Это были Бен Вайнгер (Веп Утеваг), 
Карл Пьюзон (КагІ Риғоп), Алекс Мэннинг (АІех Маппіпе), Эстер Чан 
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(Еѕ‹ћег Сһап), Аниш Бхатт (Апіѕһ Вһабк), Майкл Гласс (МасБае| С]аз$), 
Никрад Махди (№іКгаа МаБа!), Чарльз Ли (Сћагіеѕ ее), Джаред Фридман 
(Јагеа Ече4тап), Хема Маникавасагам (Нета Мапіскауаѕават), Хари Рад- 
жа (Нагі Каја), Мурали Гудипати (Мига!і Сирай), Шриниваса Варадан 
(Ѕгіпіуаѕ Уагайап) и другие; также спасибо Джерри Брэди (Сеггу Вгайу), 
моему учителю по теории алгоритмов. Отдельное большое спасибо таким 
классикам алгоритмов, как СГВ$', Кнут и Стрэнг; безусловно, я стою на 
плечах гигантов. 


Папа, мама, Приянка и все родные: спасибо за вашу неустанную поддерж- 
ку. Огромное спасибо моей жене Мэгги. Впереди у нас много прекрасных 
моментов, и мне уже не придется проводить вечер пятницы за переписы- 
ванием книги. 


Наконец, я хочу поблагодарить всех читателей, которые заинтересовались 
книгой, и тех, кто поделился своим мнением на форуме КНИГИ. Благодаря 
вам она действительно стала лучше. 


' Авторы классической книги по алгоритмам: Кормен, Лейзерсон, Ривест, Штайн. — При- 
меч. пер. 


О книге 


Я прежде всего стремился к тому, чтобы книга легко читалась. Я избегаю 
неожиданных поворотов; каждый раз, когда в книге упоминается новая 
концепция, я либо объясняю ее сразу, либо говорю, где буду объяснять. 
Основные концепции подкрепляются упражнениями и повторными объ- 
яснениями, чтобы вы могли проверить свои предположения и убедиться 
в том, что не потеряли нить изложения. 


В книге приводится множество примеров. Моя цель — не вывалить на чита- 
теля кучу невразумительных формул, а упростить наглядное представление 
этих концепций. Я также считаю, что мы лучше всего учимся тогда, когда 
можем вспомнить что-то уже известное, а примеры помогают освежить 
память. Так, когда вы вспоминаете, чем массивы отличаются от связанных 
списков (глава 2), просто вспомните, как ищете места для компании в ки- 
нотеатре. Наверное, вы уже поняли, что я сторонник визуального стиля 
обучения, — в книге полно рисунков. 


Содержимое книги было тщательно продумано. Нет смысла писать книгу 
с описанием всех алгоритмов сортировки — для этого есть такие источники, 
как Википедия и Кйап Асааету. Все алгоритмы, описанные в книге, имеют 
практическую ценность. Я применял их в своей работе программиста, и они 
закладывают хорошую основу для изучения более сложных тем. 


Приятного чтения! 
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Структура книги 


В первых трех главах закладываются основы: 


О Глава 1 — вы изучите свой первый нетривиальный алгоритм: бинарный 
поиск. Также здесь рассматриваются основы анализа скорости алгорит- 
мов с применением «О-большое». Эта запись часто используется в книге 
для описания относительной быстроты выполнения алгоритмов. 


О Глава 2 — вы познакомитесь с двумя основополагающими структурами 
данных: массивами и связанными списками. Эти структуры данных 
часто встречаются в книге и используются для создания более сложных 
структур данных, например хеш-таблиц (глава 5). 


О Глава 3 — вы узнаете о рекурсии — удобном приеме, используемом 
многими алгоритмами (например алгоритмом быстрой сортировки, 
о котором рассказано в главе 4). 


По моему опыту, темы «О-большое» и рекурсии сложны для новичков, 
поэтому в этих разделах я снижаю темп изложения и привожу более под- 
робные объяснения. 


В оставшейся части книги представлены алгоритмы, часто применяемые 
в разных областях. 


о Методы решения задач рассматриваются в главах 4, 8 и 9. Если вы 
столкнулись со сложной задачей и не знаете, как эффективно ее решить, 
воспользуйтесь стратегией «разделяй и властвуй» (глава 4) или методом 
динамического программирования (глава 9). А если вы поняли, что эф- 
фективного решения не существует, попробуйте получить приближен- 
ный ответ с использованием жадного алгоритма (глава 8). 


о Хеш-таблицы рассматриваются в главе 5. Хеш-таблицы — исключи- 
тельно полезная структура данных, предназначенная для хранения пар 
ключей и значений (например имени человека и адреса электронной 
почты или имени пользователя и пароля). Трудно переоценить практи- 
ческую полезность хеш-таблиц. Приступая к решению задачи, я обычно 
прежде всего задаю себе два вопроса: можно ли здесь воспользоваться 
хеш-таблицей и можно ли смоделировать задачу в виде графа. 


о Алгоритмы графов рассматриваются в главах 6 и 7. Графы используются 
для моделирования сетей: социальных, дорожных, нейронных или лю- 
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бых других совокупностей связей. Поиск в ширину (глава 6) и алгоритм 
Дейкстры (глава 7) предназначены для поиска кратчайшего расстояния 
между двумя точками сети: с их помощью можно вычислить кратчайший 
маршрут к точке назначения или количество промежуточных знакомых 
у двух людей в социальной сети. 


о Алгоритм АЁ ближайших соседей рассматривается в главе 10. Это про- 
стой алгоритм машинного обучения; с его помощью можно построить 
рекомендательную систему, механизм оптического распознавания текста, 
систему прогнозирования курсов акций — словом, всего, что требует про- 
гнозирования значений («Мы думаем, что Адит поставит этому фильму 
4 звезды») или классификации объектов («Это буква О»). 


о Следующий шаг: в главе 11 представлены 10 алгоритмов, которые хоро- 
шо подойдут для дальнейшего изучения темы. 


Как работать с этой книгой 


Порядок изложения и содержимое книги были тщательно продуманы. 
Если вас очень сильно интересует какая-то тема — переходите прямо к ней. 
В противном случае читайте главы по порядку, они логически переходят 
одна в другую. 


Я настоятельно рекомендую самостоятельно выполнять код всех примеров. 
Вы не поверите, насколько это важно. Просто введите мои примеры кода 
«с листа» (или загрузите их по адресу хоетапите.сот/Ъоой5/втотв- 
аівотіћтѕ или ИН рз://сийиь.сот/евопустее/ то тя_ аівоғіћтѕ) и выпол- 
ните. Так у вас в памяти останется гораздо больше, чем просто при чтении. 


Также я рекомендую выполнить упражнения, приведенные в книге. Упраж- 
нения не займут много времени — обычно задачи решаются за минуту или 
две, иногда за 5—10 минут. Упражнения помогут проверить правильность 
понимания материала. Если вы где-то сбились с пути, то узнаете об этом, 
не заходя слишком далеко. 


Для кого предназначена эта книга 


Эта книга предназначена для читателей, которые владеют азами программи- 
рования и хотят разобраться в алгоритмах. Может быть, вы уже столкнулись 
с задачей программирования и пытаетесь найти алгоритмическое решение. 
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А может, вы хотите понять, где вам могут пригодиться алгоритмы. Ниже при- 
веден короткий и неполный список людей, которым может пригодиться книга: 


О программисты-самоучки; 

О студенты, начавшие изучать программирование; 
О выпускники, желающие освежить память; 
О 


специалисты по физике/математике/другим дисциплинам, интересую- 
щиеся программированием. 


Условные обозначения 
и загружаемые материалы 


Во всех примерах в книге используется Ру оп 2.7. Весь программный 
код оформлен моноширинным шрифтом, чтобы его можно было отличить от 


обычного текста. Некоторые листинги сопровождаются аннотациями, под- 
черкивающими важные концепции. 


Код примеров книги можно загрузить на сайте издательства по адресу шим. 
таппіп&.сот/Боокѕ/втоккіпв-аівотіїћтѕ или йирз://вириЬ.сот/евопзстее/ 
втокітв аісотіїћт. 


Я считаю, что мы лучше всего учимся тогда, когда нам это нравится, — так 
что получайте удовольствие от процесса... и запускайте примеры кода! 


Об авторе 


Адитья Бхаргава работает программистом в Еќѕу, интернет-рынке авторских 
работ. Он получил степень магистра по информатике в Чикагском универси- 
тете и ведет популярный иллюстрированный технический блог ао. 


От издательства 


Ваши замечания, предложения, вопросы отправляйте по адресу сотр@ріќег, 
сот (издательство «Питер», компьютерная редакция). 


Мы будем рады узнать ваше мнение! 


На веб-сайте издательства ммм.рќегсот вы найдете подробную информацию 
о наших книгах. 


Знакомство с алгоритмами 


В этой главе 
/ Закладываются основы для остальных глав книги. 


~ Вы напишете свой первый алгоритм поиска (бинарный 
поиск). 


м Вы узнаете, как описывается время выполнения алго- 
ритма («О-большое»). 


~ Будет представлен стандартный прием, часто приме- 
няемый при проектировании алгоритмов (рекурсия). 


Введение 


Алгоритмом называется набор инструкций для выполнения некоторой 
задачи. В принципе, любой фрагмент программного кода можно назвать 
алгоритмом, но в этой книге рассматриваются более интересные темы. Ког- 
да я отбирал алгоритмы для этой книги, я следил за тем, чтобы они были 
быстрыми или решали интересные задачи... или и то и другое сразу. Вот 
лишь несколько примеров. 
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о Вглаве 1 речь пойдет о бинарном поиске и о том, как алгоритмы могут 
ускорить работу кода. В одном примере алгоритм сокращает количество 
необходимых действий с 4 миллиардов до 32! 


о Устройство СР$ использует алгоритмы из теории графов (об этом в гла- 
вах 6, 7 и 8) для вычисления кратчайшего пути к точке назначения. 


О При помощи методов динамического программирования (см. главу 9) 
можно создать алгоритм для игры в шашки. 


В каждом случае я опишу алгоритм и приведу пример. Затем мы обсудим 
время выполнения алгоритма в понятиях «О-большое». В завершение будут 
рассмотрены типы задач, которые могут решаться с применением того же 
алгоритма. 


Что вы узнаете об эффективности 
алгоритмов 


А теперь хорошая новость: скорее всего, реализация каждого алгоритма 
в этой книге уже доступна на вашем любимом языке программирования и вам 
не придется писать каждый алгоритм самостоятельно! Но любая реализация 
будет бесполезной, если вы не понимаете ее плюсов и минусов. В этой книге 
вы научитесь сравнивать сильные и слабые стороны разных алгоритмов: 
из каких соображений выбирать между сортировкой слиянием и быстрой 
сортировкой? Что использовать — массив или список? Даже выбор другой 
структуры данных может оказать сильное влияние на результат. 


Что вы узнаете о решении задач 


Вы освоите методы решения задач, которые вам сейчас, возможно, неиз- 
вестны. Примеры: 


О Если вы любите создавать видеоигры, вы можете написать систему на 
базе искусственного интеллекта, моделирующую действия пользователя 
с применением алгоритмов из теории графов. 


о Вы узнаете, как построить рекомендательную систему на базе К ближай- 
ших соседей. 
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о Некоторые проблемы не решаются за разумное время! В части книги, по- 
священной МР-полноте задач, рассказано о том, как идентифицировать 
такие задачи и построить алгоритм для получения приближенного ответа. 


А если брать шире, к концу этой книги вы освоите некоторые широко при- 
меняемые алгоритмы. После этого вы сможете воспользоваться новыми 
знаниями для изучения более специализированных алгоритмов из области 
искусственного интеллекта, баз данных и т. д. или взяться за решение более 
сложных задач в практической работе. 


зую алгебру. Напри- 


Бинарный поиск 


Предположим, вы ищете фамилию человека в те- 
лефонной книге (какая древняя технология!). Она 
начинается с буквы «К». Конечно, можно начать 
с самого начала и перелистывать страницы, пока 
вы не доберетесь до буквы «К». Но скорее всего 
для ускорения поиска лучше раскрыть книгу на 
середине: ведь буква «К» должна находиться где- 
то ближе к середине телефонной книги. 


Или предположим, что вы ищете слово в словаре, 
и оно начинается с буквы «О». И снова лучше на- 
чать с середины. 
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Теперь допустим, что вы вводите свои 
данные при входе на Еасероок. При этом 
ЕасеБооКк необходимо проверить, есть ли 
у вас учетная запись на сайте. Для это- 
го ваше имя пользователя нужно найти 
в базе данных. Допустим, вы выбрали 
себе имя пользователя «Кагітареййоп». 
ЕасеБооК может начать с буквы А и прове- 
рять все подряд, но разумнее будет начать 
с середины. 


Перед нами типичная задача поиска. И во всех этих случаях для решения 
задачи можно применить один алгоритм: бинарный поиск. 


Бинарный поиск — это алгоритм; на входе он получает отсортированный 
список элементов (позднее я объясню, почему он должен быть отсортиро- 
ван). Если элемент, который вы ищете, присутствует в списке, то бинарный 
поиск возвращает ту позицию, в которой он был найден. В противном слу- 
чае бинарный поиск возвращает пи11. 


Например: 


Ищем компанию 

в телефонной книге 
с применением 
бинарного поиска 
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Рассмотрим пример того, как работает бинарный поиск. Сыграем в простую 
игру: я загадал число от 1 до 100. 


42 [3]... 


Вы должны отгадать мое число, использовав как можно меньше попыток. 
При каждой попытке я буду давать один из трех ответов: «мало», «много» 
или «угадал». 


Предположим, вы начинаете перебирать все варианты подряд: 1, 2, 3,4.... 
Вот как это будет выглядеть. 


[84155 3 |= ое] 


Плохой способ 
угадать число 
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Это пример простого поиска (возможно, термин «тупой поиск» был бы 
уместнее). При каждой догадке исключается только одно число. Если я за- 
гадал число 99, то, чтобы добраться до него, потребуется 99 попыток! 


Более эффективный поиск 


Существует другой, более эффективный способ. Начнем с 50. 


ния 


ЬСЕ ЭТИ ЧИСЛА 
ў 2 СЛИШКОМ МАЛЫ! 


Слишком мало... но вы только что исключили половину чисел! Теперь вы 
знаете, что все числа 1-50 меньше загаданного. Следующая попытка: 75. 


2 = 
с «= 


На этот раз перелет... Но вы снова исключили половину оставшихся чисел! 
С бинарным поиском вы каждый раз загадываете число в середине диапазона 
и исключаете половину оставшихся чисел. Следующим будет число 63 (по 
середине между 50 и 75). 


Хх > 
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Так работает бинарный поиск. А вы только что узнали свой первый алго- 
ритм! Попробуем поточнее определить, сколько чисел будет исключаться 
каждый раз. 


[одфзивинто 5 [5$] [25] [3] >>>] 1. 
$ ШАГОВ ^^ 


При бинарном поиске каждый раз исключается половина чисел 


Какое бы ЧИСЛО Я НИ задумал, ВЫ гарантированно сможете угадать его не бо- 
лее чем за 7 ПОПЫТОК, потому ЧТО С каждой ПОПЫТКОЙ исключается половина 
оставшихся чисел! 


Предположим, вы ищете слово в словаре с 240 000 словами. Как вы думаете, 
сколько попыток вам понадобится в худшем случае? 


ПРОСТОЙ ПОИСК: _ ШАГОВ 
БИНАРНЫЙ ПОИСК: — ШАГОВ 


При простом поиске может потребоваться 240 000 попыток, если искомое 
слово находится на самой последней позиции в книге. С каждым шагом 
бинарного поиска количество слов сокращается вдвое, пока не останется 
ТОЛЬКО ОДНО СЛОВО. 


=== ->(28*-> (89 = 68 05%] Е) 3988] 
08974 090) 883-088-885 


ТЫ: 
58] 87) Са] 2) 10]: 
ЖЕК 


18 ШАГОВ 
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Итак, бинарный поиск потребует 18 шагов — заметная разница! В об- 
щем случае для списка из м элементов бинарный поиск выполняется за 
1о8,п шагов, тогда как простой поиск будет выполнен за и шагов. 
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ПРИМЕЧАНИЕ 


Бинарный поиск работает только в том случае, если список отсортирован. 
Например, имена в телефонной книге хранятся в алфавитном порядке, и вы 
можете воспользоваться бинарным поиском. А что произойдет, если имена 
не будут отсортированы? 


Посмотрим, как написать реализацию бинарного поиска на Ру(ћор. В следу- 
ющем примере кода используется массив. Если вы не знаете, как работают 
массивы, не беспокойтесь: эта тема рассматривается в следующей главе. 
Пока достаточно знать, что серию элементов можно сохранить в непрерыв- 
ной последовательности ячеек, которая называется массивом. Нумерация 
ячеек начинается с 0: первая ячейка находится в позиции с номером 0, 
вторая — в позиции с номером 1 ит. д. 


Функция біпагу _ѕеагсһ получает отсортированный массив и значение. Если 
значение присутствует в массиве, то функция возвращает его позицию. При 
этом мы должны следить за тем, в какой части массива проводится поиск. 
Вначале это весь массив: 


10м = ө 
1168 = 1еп(11$%) - 1 


ЧИСЛА, ПО КОТОРЫМ 
ПРОВОДИТСЯ ПОИСК 


Каждый раз алгоритм проверяет средний элемент: 


піа = (10м + һівһ) /2 жене Если значение ((ом+һідһ) нечетно, то Ру{Поп автомати- 
виез$ = 115+[тіа] чески округляет значение тій в меньшую сторону 
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Если названное число было слишком мало, то переменная 1ом обновляется 
соответственно: 


1+ риеѕ5 < Цет: 
1ом = тіа +1 


НОВОЕ 
ЗНА- 
ЧЕНИЕ 
00м ВСК 


А если догадка была слишком велика, то обновляется переменная һівћ. Полный 
код выглядит так: 

В переменных (ом и һідһ хранятся границы 
4е+ Б1пагу_5еагсй(11$%, ітем): жили той части списка, в которой выполняется 


ТО: = ФИ поиск 
һівһ = 1еп(115+)-1 <” 


мһі1е 10м <= һіеһ: жене Пока эта часть не сократится до одного элемента ... 
тіа = (1ом + һірһ) РЕС ... проверяем средний элемент 
вице$$ = 11ѕ1[тіа] 
14 Вие55 == і+ет: БОС Значение найдено 
геёигп міа 
1+ Биеѕ5 > ітет: ЕЕЕ Много 
ҺіЄһ = міа - 1 
е15е: жение Мало 
1ом = тіа + 1 
гефигп №пе ане Значение не существует 
ту 115+ = [1, 3, 5, 7, 9] ж... А теперь протестируем функцию! 
абе" Вспомните: нумерация элементов на- 
ргіпё Біпагу_ѕеагсһ(ту 1151, 3) # => 14 чинается с 0. Второй ячейке соответ- 


ргіпі біпагу ѕеагсһ(ту 115, -1) # => М№пе чч ствует индекс 1 
Я "Мопе" в Ру{Поп означает "ничто". Это 
‘признак того, что элемент не найден 


Упражнения 


1.1 Имеется отсортированный список из 128 имен, и вы ищете в нем зна- 
чение методом бинарного поиска. Какое максимальное количество 
проверок для этого может потребоваться? 
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1.2 Предположим, размер списка увеличился вдвое. Как изменится мак- 
симальное количество проверок? 


Время выполнения 


Каждый раз, когда мы будем рассматривать очередной алгоритм, я буду 
обсуждать время его выполнения. Обычно следует выбирать самый эффек- 
тивный алгоритм, будь то оптимизация по времени или памяти. 


Вернемся к бинарному поиску. Сколько времени сэкономит его приме- 
нение? В первом варианте мы последовательно проверяли каждое число, 
одно за другим. Если список состоит из 100 чисел, может потребоваться до 
100 попыток. Для списка из 4 миллиардов чисел потребуется до 4 миллиар- 
дов попыток. Таким образом, максимальное количество попыток совпадает 
с размером списка. Такое время выполнения называется линейным. 


С бинарным поиском дело обстоит иначе. Если список состоит из 100 эле- 
ментов, потребуется не более 7 попыток. Для списка из 4 миллиардов эле- 
ментов потребуется не более 32 попыток. Впечатляет, верно? Бинарный 
поиск выполняется за логарифмическое время. В следующей таблице при- 
водится краткая сводка результатов. 


ПРОСТОЙ БИНАРНЫЙ 
поиск поиск 


100 ЭЛЕМЕНТОВ | 100 ЭЛЕМЕНТОВ 
~ ~ 
100 ПОПЫТОК 3 ПОПЫТОК 


4 000 000 000 4 000 000 000 


ЭЛЕМЕНТОВ ЭЛЕМЕНТОВ 

$ 4 

4 000 000 000 32 ПОПЫТКИ 
ПОПЫТОК 
—— 
— 
О(1-04 и) 

О(м) 

4 к ЛОГАРИФМИЧЕСКОЕ. 
ЛИНЕЙНОЕ ВРЕМЯ 
ВРЕМЯ 


Время выполнения алгоритмов поиска 
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«О-большое» 


Специальная нотация «О-большое» опи- 
сывает скорость работы алгоритма. Зачем 
вам это? Время от времени вам придется 
использовать чужие алгоритмы, а пото- 
му неплохо было бы понимать, насколь- 
ко быстро или медленно они работают. 
В этом разделе я объясню, что представ- 
ляет собой «О-большое», и приведу спи- 
сок самых распространенных вариантов 
\ времени выполнения для некоторых ал- 
горитмов. 


Время выполнения алгоритмов растет 
с разной скоростью 


Боб пишет алгоритм поиска для МАЅА. Его алгоритм заработает, когда ра- 
кета будет подлетать к Луне, и поможет вычислить точку посадки. 


Это один из примеров того, как время выполнения двух алгоритмов растет 
с разной скоростью. Боб пытается выбрать между простым и бинарным 
поиском. Его алгоритм должен работать быстро и правильно. С одной 
стороны, бинарный поиск работает быстрее. У Боба есть всего 10 секунд, 
чтобы выбрать место посадки; если он не уложится в это время, то момент 
для посадки будет упущен. С другой стороны, простой поиск пишется про- 
ще и вероятность ошибок в нем ниже... Конечно, Боб совершенно не хочет 
допустить ошибку в коде посадки ракеты. И тогда для пущей уверенности 
Боб решает измерить время выполнения обоих алгоритмов для списка из 
100 элементов. 


Допустим, проверка одного элемента занимает 1 миллисекунду (мс). При 
простом поиске Бобу придется проверить 100 элементов, поэтому поиск 
займет 100 мс. С другой стороны, при бинарном поиске достаточно прове- 
рить всего 7 элементов (105,100 равен приблизительно 7), а поиск займет 
7 мс. Но реальный список может содержать более миллиарда элементов. 
Сколько времени в таком случае потребуется для выполнения простого 
поиска? А при бинарном поиске? Обязательно ответьте на оба вопроса, 
прежде чем продолжить чтение. 
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Ы —> 
И 
ПРОСТОЙ ПОИСК БИНАРНЫЙ ПОИСК 
100 мс 7 ме 


Время выполнения простого и бинарного поиска для списка из 100 элементов 


Боб проводит бинарный поиск с 1 миллиардом элементов, и на это уходит 
30 мс (10,1 000 000 000 равен приблизительно 30). «32 мс! — думает Боб. — 
Бинарный поиск в 15 раз быстрее простого, потому что простой поиск для 
100 элементов занял 100 мс, а бинарный поиск занял 7 мс. Значит, простой 
поиск займет 30 х 15 = 450 мс, верно? Гораздо меньше отведенных 10 се- 
кунд». И Боб выбирает простой поиск. Верен ли его выбор? 


Нет, Боб ошибается. Глубоко ошибается. Время выполнения для простого 
поиска с 1 миллиардом элементов составит 1 миллиард миллисекунд, а это 
11 дней! Проблема в том, что время выполнения для бинарного и простого 
поиска растет с разной скоростью. 


ПРОСТОЙ ПОИСК БИНАРНЫЙ ПОИСК 


100 ЭЛЕМЕНТОВ 100 ме 7 мс 
10 000 ЭЛЕМЕНТОВ 20 секунд 14 Мс К 
1 000 000 ЭЛЕМЕНТОВ 11 дней 52 ме - 


Время выполнения растет с совершенно разной скоростью! 


Другими словами, с увеличением количества элементов бинарный поиск 
занимает чуть больше времени. А простой поиск займет гораздо больше 
времени. Таким образом, с увеличением списка бинарный список внезап- 
но начинает работать гораздо быстрее простого. Боб думал, что бинарный 
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поиск работает в 15 раз быстрее простого, но это не так. Если список со- 
стоит из 1 миллиарда элементов, бинарный поиск работает приблизитель- 
но в 33 миллиона раз быстрее. Вот почему недостаточно знать, сколько 
времени должен работать алгоритм, — необходимо знать, как возрастает 
время выполнения с ростом размера списка. Здесь-то вам и пригодится 
«О-большое». 


«О-большое» описывает, насколько быстро 
работает алгоритм. Предположим, имеется 
список размера п. Простой поиск должен 
проверить каждый элемент, поэтому ему 
придется выполнить и операций. Время 
выполнения «О-большое» имеет вид О(п). 
Постойте, но где же секунды? А их здесь 
нет — «О-большое» не сообщает скорость 
в секундах, а позволяет сравнить количе- 
ство операций. Оно указывает, насколько 
быстро возрастает время выполнения ал- 
горитма. 


А теперь другой пример. Для проверки списка размером п бинарному поис- 
ку потребуется Іов п операций. Как будет выглядеть «О-большое»? О(]ов п). 
В общем случае «О-большое» выглядит так: 


Ово 
«О-БОЛЬШОЕ» -7 №. количЕСТВОо 
ОПЕРАЦИЙ 


Как записывается «0-большое» 


Такая запись сообщает количество операций, которые придется выпол- 
нить алгоритму. Она называется «О-большое», потому что перед количе- 
ством операций ставится символ «О» (а большое — потому что в верхнем 
регистре). 


Теперь рассмотрим несколько примеров. Попробуйте самостоятельно оце- 
нить время выполнения этих алгоритмов. 


32 Глава 1. Знакомство с алгоритмами 


Наглядное представление «О-большое» 


Чтобы повторить следующий практический пример, достаточно иметь не- 
сколько листков бумаги и карандаш. Допустим, вы должны построить сетку 
из 16 квадратов. 


Как должен выглядеть 
хороший алгоритм 
для построения этой 
сетки? 


Алгоритм 1 


Как вариант можно нарисовать 16 квадратов, по одному за раз. Напо- 
минаю: «О-большое» подсчитывает количество операций. В данном при- 
мере рисование квадрата считается одной операцией. Нужно нарисовать 
16 квадратов. Сколько операций по рисованию одного квадрата придется 
выполнить? 


Сетка 
рисуется 


по одному 
“ау 


Чтобы нарисовать 16 квадратов, потребуется 16 шагов. Как выглядит время 
выполнения этого алгоритма? 
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Алгоритм 2 


А теперь попробуем иначе. Сложите лист пополам. 


На этот раз операцией считается сложение листка. Получается, что одна 
операция создает сразу два прямоугольника! 


Сложите бумагу еще раз, а потом еще и еще. 


98, 


2 


Разверните листок после четырех сложений — получилась замечательная 
сетка! Каждое сложение удваивает количество прямоугольников. За 4 опе- 
рации вы создали 16 прямоугольников! 


1 СЛОЖЕНИЕ 2 СЛОЖЕНИЯ 3 СЛОЖЕНИЯ 4 СЛОЖЕНИЯ 
у У ~ 


пев в 


Построение сетки за 4 сложения 
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При каждом складывании количество прямоугольников увеличивается 
вдвое, так что 16 прямоугольников строятся за 4 шага. Как записать время 
выполнения этого алгоритма? Напишите время выполнения обоих алго- 
ритмов, прежде чем двигаться дальше. 


Ответы: алгоритм 1 выполняется за время О(п), а алгоритм 2 — за время 
О(о5 п). 


«О-большое» определяет время выполнения 
в худшем случае 


Предположим, вы используете простой поиск для поиска фамилии в теле- 
фонной книге. Вы знаете, что простой поиск выполняется за время О(п), то 
есть в худшем случае вам придется просмотреть каждую без исключения 
запись в телефонной книге. Но представьте, что искомая фамилия начи- 
нается на букву «А» и этот человек стоит на самом первом месте в вашей 
телефонной книге. В общем, вам не пришлось просматривать все записи — 
вы нашли нужную фамилию с первой попытки. Отработал ли алгоритм 
за время О(п)? А может, он занял время О(1), потому что результат был 
получен с первой попытки? 


Простой поиск все равно выполняется за время О(п). Просто в данном 
случае вы нашли нужное значение моментально; это лучший возможный 
случай. Однако «О-большое» описывает худший возможный случай. Фак- 
тически вы утверждаете, что в худшем случае придется просмотреть каждую 
запись в телефонной книге по одному разу. Это и есть время О(п). И это 
дает определенные гарантии — вы знаете, что простой поиск никогда не 
будет работать медленнее О(п). 


ПРИМЕЧАНИЕ 


Наряду с временем худшего случая также полезно учитывать среднее вре- 
мя выполнения. Тема худшего и среднего времени выполнения обсуждается 
в главе 4. 
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Типичные примеры «О-большого» 


Ниже перечислены пять разновидностей «О-большого», которые будут встре- 
чаться вам особенно часто, в порядке убывания скорости выполнения: 


о О(Іор п), или логарифмическое время. Пример: бинарный поиск. 
о О(лп), или линейное время. Пример: простой поиск. 


о О(п * 105 п). Пример: эффективные алгоритмы сортировки (быстрая 
сортировка — но об этом в главе 4). 


о 0(#?). Пример: медленные алгоритмы сортировки (сортировка выбо- 
ром — см. главу 2). 


о О(п/). Пример: очень медленные алгоритмы (задача о коммивояжере — 
о ней будет рассказано в следующем разделе). 


Предположим, вы снова строите сетку из 16 квадратов, и вы можете выбрать 
для решения этой задачи один из 5 алгоритмов. При использовании первого 
алгоритма сетка будет построена за время О(1ов п). В секунду выполняются 
до 10 операций. С временем О(108 п) для построения сетки из 16 квадратов 
потребуются 4 операции (108 16 равен 4). Итак, сетка будет построена за 
0,4 секунды. А если бы было нужно построить 1024 квадрата? На это бы 
потребовалось Іов 1024 = 10 операций, или 1 секунда. Напомню, что эти 
числа получены при использовании первого алгоритма. 


Второй алгоритм работает медленнее: за время О(п). Для построения 
16 прямоугольников потребуется 16 операций, а для построения 1024 пря- 
моугольников — 1024 операции. Сколько это составит в секундах? 


Ниже показано, сколько времени потребуется для построения сетки 
с остальными алгоритмами, от самого быстрого до самого медленного: 


ИМИ | 


ПРЯМО- уют 7 РҮ 

ій, угольников Оз") © О Ож | а а 
16 оле 6 с 6.4 с 25.6 с 66381 лем 
256 0% с 25.6 е ЗА мин (8ч 96,0" лт 
1.7 с 171 мин 1.2 ня 5.4х10°лем 


1074 Б 
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Существуют и другие варианты времени выполнения, но эти пять встре- 
чаются чаще всего. 


Помните, что эта запись является упрощением. На практике «О-большое» 
не удается легко преобразовать в количество операций с такой точностью, 
но пока нам хватит и этого. Мы еще вернемся к «О-большому» в главе 4, 
после рассмотрения еще нескольких алгоритмов. А пока перечислим ос- 
новные результаты: 


о Скорость алгоритмов измеряется не в секундах, а в темпе роста количе- 
ства операций. 


о По сути формула описывает, насколько быстро возрастает время выпол- 
нения алгоритма с увеличением размера входных данных. 


о Время выполнения алгоритмов выражается как «О-большое». 


о Время выполнения О(Іов п) быстрее О(п), а с увеличением размера спи- 
ска, в котором ищется значение, оно становится намного быстрее. 


Упражнения 


Приведите время выполнения «О-большое» для каждого из следующих 
сценариев. 


1.3 Известна фамилия, нужно найти номер в телефонной книге. 


1.4 Известен номер, нужно найти фамилию в телефонной книге. (Под- 
сказка: вам придется провести поиск по всей книге!) 


1.5 Нужно прочитать телефоны всех людей в телефонной книге. 


1.6 Нужно прочитать телефоны всех людей, фамилии которых начинают- 
ся сбуквы «А». (Вопрос с подвохом! В нем задействованы концепции, 
которые более подробно рассматриваются в главе 4. Прочитайте от- 
вет — скорее всего, он вас удивит!) 
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Задача о коммивояжере 


Наверное, после прочтения предыдущего раздела вы подумали: «Уж мне-то 
точно не попадется алгоритм с временем О(п/)» Ошибаетесь, и я это сейчас 
докажу! Мы рассмотрим алгоритм с очень, очень плохим временем вы- 
полнения. Это известная задача из области теории вычислений, в которой 
время выполнения растет с просто ужасающей скоростью, и некоторые 
очень умные люди считают, что с этим ничего не поделать. Она называется 
задачей о коммивояжере. 


Это коммивояжер. 


Он должен объехать 5 городов. 
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Коммивояжер хочет побывать в каждом из 5 городов так, чтобы при этом 
проехать минимальное общее расстояние. Одно из возможных решений: 
нужно перебрать все возможные комбинации порядка объезда городов. 


КЕ 


128 163 155 


МИЛЬ МИЛИ МИЛИ 


Все расстояния суммируются, после чего выбирается путь с кратчайшим 
расстоянием. Для 5 городов можно создать 120 перестановок, поэтому реше- 
ние задачи для 5 городов потребует 120 операций. Для 6 городов количество 
операций увеличивается до 720 (существуют 720 возможных перестановок). 
А для 7 городов потребуется уже 5040 операций! 


ГОРОПА | ОПЕРАЦИИ 


1562614363046 


26525 28548 12141,0с863 63084ваооороо 
Количество операций стремительно растет 


В общем случае для вычисления результата при м элементах потребуется 
п! (п-факториал) операций. А значит, время выполнения составит О(п/) 
(такое время называется факториальным). При любом сколько-нибудь 
серьезном размере списка количество операций будет просто огромным. 
Скажем, если вы попытаетесь решить задачу для 100- городов, сделать это 
вовремя не удастся — Солнце погаснет раньше. 
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Какой ужасный алгоритм! Значит, коммивояжер должен найти другое 
решение, верно? Но у него ничего не получится. Это одна из знаменитых 
нерешенных задач в области теории вычислений. Для нее не существует 
известного быстрого алгоритма, и ученые считают, что найти более эф- 
фективный алгоритм для этой задачи в принципе невозможно. В лучшем 
случае для нее можно поискать приближенное решение; за подробностями 
обращайтесь к главе 10. 


И последнее замечание: если у вас уже есть опыт программирования, почи- 
тайте о бинарных деревьях поиска! Эти структуры данных кратко описаны 
в последней главе. 


Шпаргалка 


о Бинарный поиск работает намного быстрее простого. 


о Время выполнения О(]ор п) быстрее О(п), а с увеличением размера спи- 
ска, в котором ищется значение, оно становится намного быстрее. 


о Скорость алгоритмов не измеряется в секундах. 
о Время выполнения алгоритма описывается ростом количества операций. 


о Время выполнения алгоритмов выражается как «О-большое». 


Сортировка выбором 


В этой главе 


м Вы познакомитесь с массивами и связанными списка- 
ми — двумя основными структурами данных, которые 
используются буквально везде. Мы уже использова- 
ли массивы в главе 1 и будем использовать их почти 
в каждой главе книги. Массивы чрезвычайно важны, 
уделите им внимание! Впрочем, иногда вместо масси- 
ва лучше воспользоваться связанным списком. В этой 
главе объясняются плюсы и минусы обеих структур 
данных, чтобы вы могли решить, какой вариант лучше 
подходит для вашего алгоритма. 


У Вы изучите свой первый алгоритм сортировки. Мно- 
гие алгоритмы работают только с отсортированными 
данными. Помните бинарный поиск? Он применяется 
только к предварительно отсортированному списку. 
В большинстве языков существуют встроенные алгорит- 
мы сортировки, так что вам редко приходится писать 
свою версию «с нуля». Однако алгоритм сортировки 
выбором поможет перейти к алгоритму быстрой сор- 
тировки, описанному в следующей главе. Алгоритм 
быстрой сортировки очень важен, и вам будет проще 
разобраться в нем, если вы уже знаете хотя бы один 
алгоритм сортировки. 


ооо очное охо оо ео ооо сео ооо сое ооо ос езозя 
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Как работает память 


Представьте, что вы пришли в театр и хотите оставить свои личные вещи 
В гардеробе. Для хранения вещей есть специальные ящики. 


В каждом ящике помещается один предмет. Вы хотите сдать на хранение 
две вещи, поэтому требуете выделить вам два ящика. 


ГОСПОДИН МОЖЕТ ИСПОЛЬЗОВАТЬ 
ДВА ЯЩИКА, ВОТ ЭТИ 16А. 
ПОЖАЛУЙСТА! 
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И вы оставляете свои две вещи. 


Зонтик ЗАЙЧИК 


Готово, можно идти на спектакль! 


В сущности, именно так работает память вашего компьютера. Она представ- 
ляет собой нечто вроде огромного шкафа с множеством ящиков, и у каждого 
ящика есть адрес. 


АПРЕС: {еее 


{е0НееЬ — адрес ячейки памяти. 
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Каждый раз, когда вы хотите сохранить в памяти отдельное значение, вы 
запрашиваете у компьютера место в памяти, а он выдает адрес для сохра- 
нения значения. Если же вам понадобится сохранить несколько элементов, 
это можно сделать двумя основными способами: воспользоваться масси- 
вом или списком. В следующем разделе мы обсудим массивы и списки, их 
достоинства и недостатки. Не существует единственно верного способа 
сохранения данных на все случаи жизни, поэтому вы должны знать, чем 
различаются разные способы. 


Массивы и связанные списки 


Иногда в памяти требуется сохранить список эле- 
ментов. Предположим, вы пишете приложение 
для управления текущими делами. Описания 
задач должны храниться в виде списка в памяти. 


Что использовать — массив или связанный сПи- 
сок? Для начала попробуем сохранить задачи 
в массиве, потому что этот способ более по- 
нятен. При использовании массива все задачи 
хранятся в памяти непрерывно (то есть рядом 


друг с другом). 


список ЭТУ ПАМЯТЬ 
ДЕЛ ИСПОЛЬЗУЮТ ДРУГИЕ 
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Теперь предположим, что вы захотели добавить четвертую задачу. Но сле- 
дующий ящик уже занят — там лежат чужие вещи! 


РАЗМЕСТИТЬ З.ПЕСЬ 
ЗАПАЧУ НЕЛЬЗЯ, 
МЕСТО УЖЕ ЗАНЯТО 


Представьте, что вы пошли в кино с друзьями и нашли места для своей ком- 
пании, но тут приходит еще один друг, и ему сесть уже некуда. Приходится 
искать новое место, где смогут разместиться все. В этом случае вам при- 
дется запросить у компьютера другой блок памяти, в котором поместятся 
все четыре задачи, а потом переместить все свои задачи туда. 


Если вдруг придет еще один друг, места опять не хватит, и вам всем при- 
дется перемещаться снова! Сплошная суета. Кроме того, добавление новых 
элементов в массив станет серьезной проблемой. Если свободного места 
нет и вам каждый раз приходится перемещаться в новую область в памяти, 
операция добавления нового элемента будет выполняться очень медленно. 
Простейшее решение — «бронирование мест»: даже если список состоит 
всего из 3 задач, вы запрашиваете у компьютера место на 10 позиций... 
просто на всякий случай. Тогда в список можно будет добавить до 10 за- 
дач, и ничего перемещать не придется. Это неплохое обходное решение, но 
у него есть пара недостатков: 


о Лишнее место может не понадобиться, и тогда память будет расходо- 
ваться неэффективно. Вы ее не используете, однако никто другой ее 
использовать тоже не может. 


о Если в список будет добавлено более 10 задач, перемещаться все равно 
придется. 


В общем, прием неплохой, но его нельзя назвать идеальным. Связанные 
списки решают проблему добавления новых элементов. 
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Связанные списки 


При использовании связанного списка элементы могут размещаться где 
угодно в памяти. 


ЭТУ ПАМЯТЬ 
ИСПОЛЬЗУЮТ „ПРУГИЕ 


В каждом элементе хранится адрес следующего элемента списка. Таким 
образом, набор произвольных адресов памяти объединяется в цепочку. 


Связанные адреса 
памяти 


Все как в игре «Найди клад». Вы приходите по первому адресу, там написа- 
но: «Следующий элемент находится по адресу 123». Вы идете по адресу 123, 
там написано: «Следующий элемент находится по адресу 847» и т. д. До- 
бавить новый элемент в связанный список проще простого: просто разме- 
стите его по любому адресу памяти и сохраните этот адрес в предыдущем 
элементе. 
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Со связанными списками ничего перемещать в памяти не нужно. Также 
сама собой решается другая проблема: допустим, вы пришли в кино с пя- 
тью друзьями. Вы пытаетесь найти место на шестерых, но кинотеатр уже 
забит, и найти шесть соседних мест невозможно. Нечто похожее проис- 
ходит и с массивами. Допустим, вы пытаетесь найти для массива блок на 
10 000 элементов. В памяти можно найти место для 10 000 элементов, но 
только не смежное. Для массива не хватает места! При хранении данных 
в связанном списке вы фактически говорите: «Ладно, тогда садимся на 
свободные места и смотрим кино». Если необходимое место есть в памяти, 
вы сможете сохранить данные в связанном списке. 


Если связанные списки так хорошо справляются со вставкой, то чем тогда 
хороши массивы? 


Массивы 


На сайтах со всевозможными хит-парадами и «пер- 
выми десятками» применяется жульническая такти- 
ка для увеличения количества просмотров. Вместо 
того чтобы вывести весь список на одной странице, 
они размещают по одному элементу на странице 
и заставляют вас нажимать кнопку М№ехї для пере- наи 

хода к следующему элементу. Например, «Десятка Бы (чект 
лучших злодеев в сериалах» не выводится на одной 

странице. Вместо этого вы начинаете с № 10 (Ньюман из «Сайнфелда») 
и нажимаете М№ехї на каждой странице, пока не доберетесь до № 1 (Густаво 
Фринг из «Во все тяжкие»). В результате сайту удается показать вам рекла- 
му на целых 10 страницах, но нажимать № 9 раз для перехода к первому 
месту скучно. Было бы гораздо лучше, если бы весь список помещался на 
одной странице, а вы бы могли просто щелкнуть на имени человека для 
получения дополнительной информации. 


Похожая проблема существует и у связанных списков. Допустим, вы хо- 
тите получить последний элемент связанного списка. Просто прочитать 
нужное значение не удастся, потому что вы не знаете, по какому адресу оно 
хранится. Вместо этого придется сначала обратиться к элементу № 1 и уз- 
нать адрес элемента № 2, потом обратиться к элементу № 2 и узнать адрес 
элемента № 3... и так далее, пока не доберетесь до последнего элемента. 
Связанные списки отлично подходят в тех ситуациях, когда данные долж- 
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ны читаться последовательно: сначала вы читаете один элемент, по адресу 
переходите к следующему элементу и т. д. Но если вы намерены прыгать по 
списку туда-сюда, держитесь подальше от связанных списков. 


С массивами дело обстоит совершенно иначе. Работая с массивом, вы за- 
ранее знаете адрес каждого его элемента. Допустим, массив содержит пять 
элементов и вы знаете, что он начинается с адреса 00. По какому адресу 
хранится пятый элемент? 


МАССИВ ИЗ ПЯТИ ЭЛЕМЕНТОВ 


4 


оо 01 02 03 ой 


ЛЯТЫЙ 
ЭЛЕМЕНТ 


Простейшая математика дает ответ: это адрес 04. Массивы прекрасно подхо- 
дят для чтения элементов в произвольных позициях, потому что обращение 
К любому элементу в массиве происходит мгновенно. В связанном списке 
элементы не хранятся рядом друг с другом, поэтому мгновенно определить 
позицию і-го элемента в памяти невозможно — нужно обратиться к перво- 
му элементу, чтобы получить адрес второго элемента, затем обратиться ко 
второму элементу для получения адреса третьего — и так далее, пока вы не 
доберетесь до 1-го. 


Терминология 


Элементы массива пронумерованы, причем нумерация начинается с О, ане 
с 1. Например, в этом массиве значение 20 находится в позиции 1. 


[19| 2020/40] 


123 


А значение 10 находится в позиции 0. Неопытных программистов этот факт 
обычно вводит в ступор. Тем не менее выбор нулевой начальной позиции 
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упрощает написание кода по работе с массивами, поэтому программисты 
остановились на этом варианте. Почти во всех языках программирования 
нумерация элементов массива начинается с 0. Вскоре вы к этому привык- 
нете. 


Позиция элемента называется его индексом. Таким образом, вместо того 
чтобы говорить «Значение 20 находится в позиции 1», правильно сказать 
«Значение 20 имеет индекс 1». В этой книге термин «индекс» означает то 
же, что и «позиция». 


Ниже приведены примеры времени выполнения основных операций с мас- 
сивами и списками. 


МАССИВЫ | СПИСКИ 


Ов) 
оа) 


ЧТЕНИЕ. 


ЬСТАВКА 


Ос = МИНЕЙНОЕ ВРЕМЯ 
(«2 + ПОСТОЯННОЕ ВРЕМЯ 


Вопрос: почему вставка элемента в массив требует времени О(и)? Предполо- 
жим, вы хотите вставить элемент в начало массива. Как бы вы это сделали? 
Сколько времени на это потребуется? Ответы на эти вопросы вы найдете 
в следующем разделе! 


Упражнения 


2.1 Допустим, вы строите приложение для управления финансами. 


1. ПРОДУКТЫ 
2. кино 
3. БЕЛОСИПЕПНЫЙ КЛУБ 
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Ежедневно вы записываете все свои траты. В конце месяца вы анали- 
зируете расходы и вычисляете, сколько денег было потрачено. При 
работе с данными выполняется множество операций вставки и отно- 
сительно немного операций чтения. Какую структуру использовать — 
массив или список? 


Вставка в середину списка 


Предположим, вы решили, что список задач должен больше напоминать 
календарь. Прежде данные добавлялись только в конец списка, а теперь 
они ДОЛЖНЫ добавляться в порядке их выполнения. 


С овБЕй 
С тРЕвировкл Е р 
С] З^ЕПИТиЕ ыу КУПИТЬ ч 2 
7 тить чм, а ЧАЕПИТИЕ 
тасис зеи, 
Неупорядоченный Упорядоченный 


Что лучше подойдет для вставки элементов в середину: массивы или списки? 
Со списком задача решается изменением указателя в предыдущем элементе. 
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А при работе с массивом придется сдвигать вниз все остальные элементы. 


ЭТУ ЗАДАЧУ 
НЕОБХОДИМО 
ВСТАВИТЬ СЮДА 


М 
э \ К ПОЭТОМУ эту злдлчу 
ПРИДЕТСЯ СПВИНУТЬ 


м7 ВНИЗ 


СЕИ 


А если свободного места не осталось, все данные придется скопировать 
в новую область памяти! В общем, списки лучше подходят для вставки 
элементов в середину. 


Удаление 


Что, если вы захотите удалить элемент? И снова список лучше подходит 
для этой операции, потому что в нем достаточно изменить указатель в пре- 
дыдущем элементе. В массиве при удалении элемента все последующие 
элементы нужно будет сдвинуть вверх. 


В отличие от вставки удаление возможно всегда. Попытка вставки может 
быть неудачной, если в памяти не осталось свободного места. С удалением 
подобных проблем не бывает. 


Ниже приведены примеры времени выполнения основных операций с мас- 
сивами и связанными списками. 


МАССИВЫ | СПИСКИ 


ЧТЕНИЕ 


ЬСТАВКА 


Оа) 
оа) 


УПАЛЕНИЕ 
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Заметим, что вставка и удаление выполняются за время О(1) только в том 
случае, если вы можете мгновенно получить доступ к удаляемому элементу. 
На практике обычно сохраняются ссылки на первый и последний элементы 
связанного списка, поэтому время удаления этих элементов составит всего 
0(1). 


Какая структура данных используется чаще: массивы или списки? Очевидно, 
это зависит от конкретного сценария использования. Массивы чрезвычайно 
популярны из-за того, что они поддерживают произвольный доступ. Всего 
существуют два вида доступа: произвольный и последовательный. При по- 
следовательном доступе элементы читаются по одному, начиная с первого. 
Связанные списки поддерживают только последовательный доступ. Если вы 
захотите прочитать 10-й элемент связанного списка, вам придется прочитать 
первые 9 элементов и перейти по ссылкам к 10-му элементу. Я часто говорю, 
что массивы обладают более высокой скоростью чтения; это объясняется 
тем, что они поддерживают произвольный доступ. Многие реальные ситуа- 
ции требуют произвольного доступа, поэтому массивы часто применяются 
на практике. Также массивы и списки используются для реализации других 
структур данных (о которых будет рассказано в книге далее). 


Упражнения 


2.2 Допустим, вы пишете приложение для приема заказов от посетителей 
ресторана. Приложение должно хранить список заказов. Официанты 
добавляют заказы в список, а повара читают заказы из списка и вы- 
полняют их. Заказы образуют очередь: официанты добавляют заказы 
в конец очереди, а повар берет первый заказ из очереди и начинает 
ГОТОВИТЬ. 


"А _— ОЧЕРЕДЬ ЗАКАЗОВ — Лов 
Ум АРА 3 
ЗАКАЗЫ ВЛЕКАЮТ 


ОЧЕ оу АЛЕ 
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2.3 


2.4 


2.5 
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Какую структуру данных вы бы использовали для реализации этой 
очереди: массив или связанный список? (Подсказка: связанные списки 
хорошо подходят для вставки/удаления, а массивы — для произволь- 
ного доступа к элементам. Что из этого понадобится в данном случае?) 


Проведем мысленный эксперимент. Допустим, ЕасеБооК хранит 
список имен пользователей. Когда кто-то пытается зайти на сайт 
ЕасеБоок, система пытается найти имя пользователя. Если имя входит 
в список имен зарегистрированных пользователей, то вход разреша- 
ется. Пользователи приходят на ЕасерооК достаточно часто, поэтому 
поиск по списку имен пользователей будет выполняться часто. Будем 
считать, что РасеБоок использует бинарный поиск для поиска в спи- 
ске. Бинарному поиску необходим произвольный доступ — алгоритм 
должен мгновенно обратиться к среднему элементу текущей части 
списка. Зная это обстоятельство, как бы вы реализовали список поль- 
зователей: в виде массива или в виде связанного списка? 


Пользователи также довольно часто создают новые учетные записи на 
ЕасеБоок. Предположим, вы решили использовать массив для хране- 
ния списка пользователей. Какими недостатками обладает массив для 
выполнения вставки? Допустим, вы используете бинарный поиск для 
нахождения учетных данных. Что произойдет при добавлении новых 
пользователей в массив? 


В действительности ЕасеБооК не использует ни массив, ни связанный 
список для хранения информации о пользователях. Рассмотрим ги- 
бридную структуру данных: массив связанных списков. Имеется мас- 
сив из 26 элементов. Каждый элемент содержит ссылку на связанный 
список. Например, первый элемент массива указывает на связанный 
список всех имен пользователей, начинающихся на букву «А». Второй 
элемент указывает на связанный список всех имен пользователей, на- 
чинающихся на букву «В», ит. д. 


Связанный сиисок со всеми именами 
.. №: Имена пользователей 
на букву «В» 


МАССИВ 
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Предположим, пользователь с именем «Ади В» регистрируется на 
ЕасеБоок и вы хотите добавить его в список. Вы обращаетесь к эле- 
менту 1 массива, находите связанный список элемента 1 и добавляете 
«Аі В» в конец списка. Теперь предположим, что зарегистрировать 
нужно пользователя «ГакКЫг Н». Вы обращаетесь к элементу 26, ко- 
торый содержит связанный список всех имен, начинающихся с «7», 
и проверяете, присутствует ли «7акіг Н» в этом списке. 


Теперь сравните эту гибридную структуру данных с массивами и свя- 
занными списками. Будет ли она быстрее или медленнее каждой ис- 
ходной структуры при поиске и вставке? Приводить «О-большое» не 
нужно, просто выберите одно из двух: быстрее или медленнее. 


Сортировка выбором 


А теперь объединим все, что вы узнали, во вто- 
ром алгоритме: сортировке выбором. Чтобы ос- 
воить этот алгоритм, вы должны понимать, как 
работают массивы и списки и «О-большое». 
Допустим, у вас на компьютере записана музы- 
ка и для каждого исполнителя хранится счет- 
чик воспроизведений. 


СЧЕТЧИК 80С- 
-99- ПРОИЗВЕДЕНИЙ 


КАРТОНЕАР 
КУНАОВЕ КОМАК 
ТҢЕ БАСК КЕУ$ 
МЕОТАА МПК НОТЕІ. 

р 


ТҢЕ $ТАОКЕ$ 
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Вы хотите отсортировать список по убыванию счетчика воспроизведений, 
чтобы самые любимые исполнители стояли на первых местах. Как это 
сделать? 


Одно из возможных решений — пройти по списку и найти исполнителя 
с наибольшим количеством воспроизведений. Этот исполнитель добавля- 
ется в новый список. 


СЧЕТЧИК 80С- СЧЕТЧИК 80С- 
~ - ПРОИЗВЕДЕНИЙ Зсписокео ПРОИЗВЕДЕНИЙ 


КАРШОНЕАР |156 


КАРОНЕХАР 
КІЅҢОКЕ КОМАК 
ТҢЕ БАСК КЕУ$ 
МЕОТЋА МК НОТЕ 


ТҢЕ $ТАОКЕ$ 
мсо 


1. У РАШОҢЕАР 
БОЛЬШЕ ВСЕГО 
ВОСПРОИЗВЕПЕНИЙ... 


2. ПОБАВЛЯЕМ 
КАРОНЕАР 
8 НОВЫЙ СПИСОК 


Потом то же самое происходит со следующим по количеству воспроизве- 
дений исполнителем. 


СЧЕТЧИК 80С- 


> СЧЕТЧИК В0С- 
р 7 СПИСОК 2 ПРоиЗвЕПЕНИЙ 


ПРОИЗВЕПЕНИЙ 


КАРТОНЕАР 
К5НОВЕ КОМАК 


КІЅҢОКЕ КОМА 
ТҢЕ БАСК КЕУ$ 
МЕОТААЕ МК НОТЕ 


11) 


СЛЕ 
слЕдхЮЩИћ, 2. ПОЭТОМ? А ку. 
МСПОЛМИТЕЛО 90% ОВЫЙ 

КОМАЧЕСТО ий АЯЕТСЯ В А 
БосПРОКЗВЕ ДА, список 
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Продолжая действовать так, мы получаем отсортированный список. 


= СЧЕТЧИК 80С- 
ПРОИЗВЕДЕНИЙ 


156 


КАРОНЕАР 
КІЅҢОКЕ КОМА 


МЕОТАЮЕ МІК НОТЕ. 


ЪЕСК 
ТҢЕ $ТАОКЕ$ 


ы —_—— 


ТҢЕ БАСК КЕУ$ 


А теперь попробуем оценить происходящее с точки зрения теории вычис- 
лений и посмотрим, сколько времени будут занимать операции. Напомним, 
что время О(п) означает, что вы по одному разу обращаетесь к каждому 
элементу списка. Например, при простом поиске по списку исполнителей 
каждый исполнитель будет проверен один раз. 


1. КАРТОНЕАР 
2. КЗНОВЕ КОМАК 


3. ТАЕ ЫАСК КЕУЅ и 
элеменилов 

4. МЕОТКАЕ МПК НОТЕ 

5. ЕСК 

6. ТАЕ ЗТАОКЕ$ 

3. МСО 


Чтобы найти исполнителя с наибольшим значением счетчика воспроиз- 
ведения, необходимо проверить каждый элемент в списке. Как вы уже 
видели, это делается за время О(п). Итак, имеется операция, выполняемая 
за время О(п), и ее необходимо выполнить п раз: 
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1. КАРОНЕАР 

2. МЗНОКЕ комик тане 1. тне ткоке 
3. ТҢЕ БАСК КЕУЗ 3. НЕОТААЕ МІК НОТЕ 

4. НЕОТКАЕ МАК НОТЕ =Х 4 веси .. ® 

5. ЪЕСК 5. ТЕ ЗТКОКЕЗ 

6. ТҢЕ ЅТАОКЕЅ 6. м со 

3. МЕСО 


Ом) Осу Осо 


и элеменилов 


Все это требует времени О(п х п), или О(т2). 


Пример кода 57 


Алгоритмы сортировки очень полезны. Например, теперь вы можете отсор- 
тировать: 


О имена в телефонной книге; 
О даты путешествий; 
о сообщения электронной почты (от новых к старым). 


Алгоритм сортировки выбором легко объясняется, но медленно работает. 
Быстрая сортировка — эффективный алгоритм сортировки, который выпол- 
няется за время О(п Іор п). Но мы займемся этой темой в следующей главе! 


Пример кода 


Мы не будем приводить код сортировки музыкального списка, но напи- 
санный ниже код делает нечто очень похожее: он выполняет сортировку 
массива по возрастанию. Напишем функцию для поиска наименьшего 
элемента массива: 


де+ Ғіпа $та11е$*(а г г): 
ѕта11е5+ = агг[0] 
Ѕта11е51 іпӣех = ө 
Ғог і іп гапре(1, 1еп(агг)): 

14 агг[1] < ѕта11еѕ1: 
ѕта11е51 = агг[1] 
ѕта11еѕ+ іпдех = 1 

гефигп ѕма11еѕ1_іпаех 


Для хранения наименьшего значения 
Для хранения индекса наименьшего значения 


Теперь на основе этой функции можно написать функцию сортировки вы- 
бором: 


деғҒ ѕе1есіопѕогі (агг): 66 Сортирует массив 
пемАгг = [] 
Ғог і іп гапве(1еп(агг)): 
ѕта11еѕ+ = іпаѕта11еѕ+(агг) <.......--..-. Находит наименьший элемент в массиве 


пемАгг.аррепа(агг.рор(ѕта11еѕї)) и добавляет его в новый массив 
геёигп пемАгг 


ргіпЄ ѕе1есііопѕогї([5, 3, 6, 2, 10]) 
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Шпаргалка 


Память компьютера напоминает огромный шкаф с ящиками. 


о Если вам потребуется сохранить набор элементов, воспользуйтесь мас- 
СИВОМ ИЛИ СПИСКОМ. 


о Вмассиве все элементы хранятся в памяти рядом друг с другом. 


о В списке элементы распределяются в произвольных местах памяти, при 
этом в одном элементе хранится адрес следующего элемента. 


о Массивы обеспечивают быстрое чтение. 
Списки обеспечивают быструю вставку и выполнение. 


о Все элементы массива должны быть ОДНОТИПНЫМИ (только целые числа, 
только вещественные числа и т. д.). 


Рекурсия 


ооо ооо оу ооо ооо о оо ооо хочя ооо 


В этой главе 


/ Вы узнаете, что такое рекурсия — метод программиро- 
вания, используемый во многих алгоритмах. Это важная 
концепция для понимания дальнейших глав книги. 


м Вы научитесь разбивать задачи на базовый и рекурсив- 
ный случай. В стратегии «разделяй и властвуй» (гла- 
ва 4) эта простая концепция используется для решения 
более сложных задач. 


хо ононооо оу ооо ооо оо ооо нооо оо ооо ооо ооо очочооо 


Эта глава мне самому очень нравится, потому что в ней рассматривается 
рекурсия — элегантный метод решения задач. Рекурсия относится к числу 
моих любимых тем, но вызывает у людей противоречивые чувства. Они 
либо обожают ее, либо ненавидят, либо ненавидят, пока не полюбят через 
пару-тройку лет. Лично я отношусь к третьему лагерю. Чтобы вам было 
проще освоить эту тему, я дам несколько советов: 


О Глава содержит множество примеров кода. Самостоятельно выполните 
этот код и посмотрите, как он работает. 


о Мы будем рассматривать рекурсивные функции. Хотя бы один раз возь- 
мите бумагу и карандаш и разберите, как работает рекурсивная функ- 
ция: «Так, я передаю функции #асќогіа1 значение 5, потом возвращаю 
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управление и передаю значение 4 функции +ас%ог1а1, которая...» ит. д. 
Такой разбор поможет вам понять, как работает рекурсивная функция. 


В этой главе также приводится большое количество псевдокода. Псевдокод 
представляет собой высокоуровневое описание решаемой задачи. Он за- 
писывается в форме, похожей на программный код, но в большей степени 
напоминает естественный язык. 


Рекурсия 


Допустим, вы разбираете чулан своей бабушки и натыкаетесь на загадочный 
запертый чемодан. 


Быыс 


ЬЛОЖЕННЫЕ 
КОРОБКИ 


хе 


>”. 


мА: 


хх 
у 


ь2 22 
р 


о 2—1: 
РРР ИТЕРА 


& Большая 
КОРОБКА 


№ 
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В коробке лежат другие коробки, а в них лежат маленькие коробочки. Ключ 
находится где-то там. Какой алгоритм поиска ключа предложите вы? По- 
думайте над алгоритмом, прежде чем продолжить чтение. 


Одно из решений может выглядеть так: 


СЛОЖИТЬ 
ВСЕ КОРОБКИ 
8 КУЧУ 


ПОКА В КУЧЕ 
ОСТАЮТСЯ КОРОБКИ 


ЪЗЯТЬ КОРОБКУ 
и ОТКРЫТЬ 


САИ ВНУТРИ 
м ВНУТРИ Е 

ит ковов-| | лент КМ0, 
кь, ПОБАВИТЬ ЗАКОНЧЕН\ 


ЕЕ В КҮЧҮ 


1. Сложить все коробки в кучу. 
2. Взять коробку и открыть. 


3. Если внутри лежит коробка, добавить ее в кучу для последующего по- 
иска. 


4. Если внутри лежит ключ, поиск закончен! 


5. Повторить. 
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Есть и альтернативное решение. 


ПРОВЕРИТЬ 
КАЖДЫЙ 

ПРЕДМЕТ 
ь КОРОБКЕ 


ЕСЛИ ВЫ НАМДЕТЕ 


КМЧ, ПОИСК 
ЗАКОНЧЕН\ 


1. Просмотреть содержимое коробки. 
2. Если вы найдете коробку, вернуться к шагу 1. 
3. Если вы найдете ключ, поиск закончен! 


Какое решение кажется вам более простым? Первое решение можно постро- 
ить на цикле мћі1е. Пока куча коробок не пуста, взять очередную коробку 
и проверить ее содержимое: 


деғ 1оок_Ғог_Кеу(таіп_Ббох): 
р11е = маіп_бох.таке а _рі1е +о 1оок_һгоирћ() 
мһіЈе рі1е 1$ поё етрїу: 
Бох = рі1е.ргаБ а бох() 
Ғог ітет іп бох: 
1+ ібет.15 а Бох(): 
рі1е.аррепа(і+ет) 
е11+ іїет.15 а Кеу(): 
ргіпё "Ғоипа +һе Кеу!" 


Второй способ основан на рекурсии. Рекурсией называется вызов функцией 
самой себя. Второе решение на псевдокоде может выглядеть так: 


де+ 1оок_+ог_кеу(Ь ох): 
Ғог 1%ет іп бох: 
14+ ітет.15 а бох(): 
Іоок_Ғог_Кеу(і+ет) же Рекурсия! 
е11+ 1{4ет.1$_а_Кеу(): 
ргіпє "Ғоипа һе Кеу!" 
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Оба решения делают одно и то же, но второе решение кажется мне более 
ПОНЯТНЫМ. Рекурсия применяется тогда, когда решение становится более 
понятным. Применение рекурсии не ускоряет работу программы: более 
того, решение с циклами иногда работает быстрее. Мне нравится одна ци- 
тата Ли Колдуэлла с сайта Ѕ(аск Оуег]о\: «Циклы могут ускорить работу 
программы. Рекурсия может ускорить работу программиста. Выбирайте, 
что важнее в вашей ситуации!» ' 


Рекурсия используется во многих нужных алгоритмах, поэтому важно по- 
нимать эту концепцию. 


Базовый случай 
и рекурсивный случай 


Так как рекурсивная функция вызывает сама себя, 
программисту легко ошибиться и написать функ- 
цию так, что возникнет бесконечный цикл. Пред- 
положим, вы хотите написать функцию для выво- 
да обратного отсчета: 


> 3...2...1 


Ее можно записать в рекурсивном виде: 


де+ соипЕаомпт (1): 
рг1п* 1 
соипіаом п(1-1) 


Введите этот код и выполните его. И тут возникает проблема: эта функция 
выполняется бесконечно! 


Бесконечный 
цикл 


' Бер://заскоуео\.сот/а/72694/139117 
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> 3...2...1...0...-1...-2... 


Чтобы прервать выполнение сценария, нажмите Си!1+С. 


Когда вы пишете рекурсивную функцию, в ней необходимо указать, в ка- 
кой момент следует прервать рекурсию. Вот почему каждая рекурсивная 
функция состоит из двух частей: базового случая и рекурсивного случая. 
В рекурсивном случае функция вызывает сама себя. В базовом случае 
функция себя не вызывает... чтобы предотвратить зацикливание. 


Добавим базовый случай в функцию соипёаомп: 


де+ соип&домт (1): 


ргіпё 1 

1 <= 0: <. Базовый случай 
гефигп 

е15е: БС Рекурсивный случай 


соипёдом п(1-1) 


Теперь функция работает так, как было задумано. Это выглядит примерно 
так; 


Е ВЫ- 
ПРОТИВНОМ СЛУЧА | 
ЗВАТЬ соонтромА ДАЯ ! 1 


^ 


т РЕКУРСИВНЫЙ 
БАЗОВЫЙ СЛУЧАЙ 
СЛУЧАЙ 


ЕСЛИ Г <=] 
РАБОТА 
ЗАКОНЧЕНА 
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Стек 


В этом разделе рассматривается стек вызовов. Концепция стека вызовов 
играет важную роль в программировании вообще; кроме того, ее важно по- 
нимать при использовании рекурсии. 


Предположим, вы устраиваете вечеринку с барбекю. Вы составляете спи- 
сок задач и записываете дела на листках. 


Помните, когда мы рассматривали массивы и списки, у вас 

<, тоже был список задач? Задачи, то есть элементы списка, 

СУ 225 можно было добавлять и удалять в произвольных пози- 

227 циях списка. Стопка листков работает куда проще. Новые 

(вставленные) элементы добавляются в начало списка, 

то есть на верх стопки. Читается только верхний элемент, и он исключается 

из списка. Таким образом, список задач поддерживает всего два действия: 
занесение (вставка) и извлечение (выведение из списка и чтение.) 


“х 


ЗАНЕСЕНИЕ ИЗВЛЕЧЕНИЕ 
(НОВЫЙ ЭЛЕМЕНТ (ВЕРХНИЙ ЭЛЕМЕНТ 

ДОБАВЛЯЕТСЯ выводится ИЗ СТОПКИ 
НА ВЕРХ СТОПКИ) И ЧИТАЕТСЯ) 


Посмотрим, как работает список задач: 


> Е ПУ > 
ЗАДАЧА ҢА ЛИСТКЕ НАПИСАНО: 
ИЗВЛЕКАЕТСЯ «КУПИТЬ ЕУ». 
ИЗ СТОПКИ НУЖНО КУПИТЬ 


БУЛОЧКИ, БУРГЕРЫ 
И ТОРТ 
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Такая структура данных называется стеком. Стек — простая структура дан- 
ных. А теперь самое неожиданное: все это время вы пользовались стеком, 
не подозревая об этом! 


Стек вызовов 


Во внутренней работе вашего компьютера используется стек, называемый 
стеком вызовов. Давайте посмотрим, как он работает. Предположим, име- 
ется простая функция: 


ае+ вгееї (паме): 
ргіпЕ "һе110, " + пате + 
Бгее+2 (пате) 
ргіп "вреїёіпЕ геаду Фо ѕау буе..." 


Буе() 


Эта функция приветствует вас, после чего вызывает две другие функции. 
Вот эти две функции: 


деҒ ргее+2 (паме): 
ргіпі "һом аге уои, 
де+ Буе(): 
ргіпЕ "ок Буе!" 


+ паме + "?" 


Разберемся, что происходит при вызове функции. 


ПРИМЕЧАНИЕ 


В языке Руёћоп ргіпё тоже является функцией. Чтобы не усложнять пример, 
мы сделаем вид, что этой функции нет. Просто подыграйте нам. 


Предположим, в программе используется вызов вгее+ ("таввіе"). Сначала 
ваш компьютер выделяет блок памяти для этого вызова функции Я 
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Затем эта память используется. Переменной пате присваивается значение 
"паввіе"; оно должно быть сохранено в памяти. 


[ НАМЕ: | МАССТЕ | 


Каждый раз, когда вы вызываете функцию, компьютер сохраняет в памяти 
значения всех переменных для этого вызова. Далее выводится приветствие 
һе110, тарріе!, после чего следует второй вызов вгее+2 ( "таввіе"). И снова 
компьютер выделяет блок памяти для вызова функции. 


ТЕКУЩИЙ 
ВЫЗОВ 


ФУНКЦИИ 
Ы 


Ваш компьютер объединяет эти блоки в стек. Второй блок создается над 
первым. Вы выводите сообщение һом аге уои, таввіе?, после чего воз- 
вращаете управление из вызова функции. Когда это происходит, блок на 
вершине стека извлекается из него. 


Теперь верхний блок в стеке относится к функции вгее*; это означает, что 
вы вернулись к функции ргееї. При вызове функции вгееї2 функция вгееї 
еще не была завершена. Здесь-то и скрывается истинный смысл этого раз- 
дела: когда вы вызываете функцию из другой функции, вызывающая функция 
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приостанавливается в частично завершенном состоянии. Все значения пере- 
менных этой функции остаются в памяти. А когда выполнение функции 
бгееї2 будет завершено, вы вернетесь к функции вгее* и продолжите ее 
выполнение с того места, где оно прервалось. Сначала ВЫВОДИТСЯ сообщение 
Беїїіпр геа4у о ѕау Буе.., после чего вызывается функция Буе. 


Блок для этой функции добавляется на вершину стека. Далее выводится 
сообщение ок Буе! с выходом из вызова функции. 


Управление снова возвращается функции вгее*. Делать больше нечего, так 
что управление возвращается и из функции ргее*. Этот стек, в котором со- 
хранялись переменные разных функций, называется стеком вызовов. 


Упражнения 


3.1 Предположим, имеется стек вызовов следующего вида: 
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Что можно сказать о текущем состоянии программы на основании этого 
стека вызовов? 


А теперь посмотрим, как работает стек вызовов с рекурсивными функ- 
ЦИЯМИ. 


Стек вызовов с рекурсией 


Рекурсивные функции тоже используют стек вызовов! Посмотрим, как это 
делается, на примере функции вычисления факториала. Вызов #Ғасќогіа1(5) 
записывается в виде 5! и определяется следующим образом: 5! = 5*4*3*2*1. 
По тому же принципу Ғасќогіа1(3) соответствует 3*2*1. Рекурсивная функ- 
ция для вычисления факториала числа выглядит так: 


ае+ Ғасї(х): 
1х == 
гефигп 1 
е15е: 
геёигп х * Фас*(х-1) 


В программу включается вызов Ғасї(3). Проанализируем этот вызов 
строку за строкой и посмотрим, как изменяется стек вызовов. Стоит на- 
помнить, что верхний блок в стеке сообщает, какой вызов #ас+ является 


текущим. 


коп СТЕК ВЫЗОВОВ 


фсе Гат] ПЕРВЫЙ ВЫЗОВ РАСТ. 
я - 15 ] ЗНАЧЕНИЕ Х РАВНО 3 


РЕКУРСИЬНЫЙ коиот х ж ас -1) 12 


863081 
в ЗИ». Гх [3 
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Рае = ЪЕРХНИЙ ВЫЗОВ ФУНК- 

х [> |= ЧИИ - тот, КОТОРЫЙ 

8 ПАННЫЙ МОМЕНТ 
ЯВЛЯЕТСЯ ТЕКУЩИМ 


п ------------ тада Ь ОБОИХ ВЫЗОВАХ СУЩЕ- 
СТВУЕТ ПЕРЕМЕННАЯ 
С ИМЕНЕМ х, КОТОРАЯ 
іг ИМЕЕТ В ЭТИХ ВЫЗОВАХ 
РАЗНЫЕ ЗНАЧЕНИЯ 


ОБРАТИТЬСЯ К ЗНАЧЕ- 
НИЮ Х ЭТОГО ВЫЗОВА 
ВНУТРИ ЭТОГО ВЫЗОВА 
НЕВОЗМОЖНО - И НА- 
ОБОРОТ 


СЕЙЧАС ТЕКУЩИМ 

СТАЛ ВТОРОЙ ВЫЗОВ И Хх ==[: 
РАСТ. ЗНАЧЕНИЕ Х 

РАВНО 2 


т 


ПЕРВЫЙ БЛОК, КОТО- 
МРЫЙ БУДЕТ ИЗВЛЕЧЕН 


ОГО, ЭТО УЖЕ ТРЕ- 9 ИЗ СТЕКА; ЭТО ОЗНАЧА- 
ТИЙ ВЫЗОВ — ПРИ- гес Г 


ЧЕМ НИ ОПИН ВЫЗОВ , а ЕТ, ЧТО ИМЕННО ЭТОТ 
10 СИХ ПОР ТАК ЬОЗВРАЩАЕТ 1 ВЫЗОВ ПЕРВЫМ ВЕРНЕТ 


УПРАВЛЕНИЕ 
И НЕ ЗАВЕРШИЛСЯ\ 
“С розврАЩАЕТ 1 


ЬЫЗОВ ФУНКЦИИ, та, 
только что ВЕР ^ т к БОЗВРАЩАЕТ 2 
НУВШИЙ УПРАВЛЕНИЕ — теосо ХЖ а. (1) 5 

[хз | 


ЗНАЧЕНИЕ Х РАВНО 2 


уеуги хх Та) Е <— БОЗВРАЩАЕТ 6 
Г 


ЭТОТ ВЫЗОВ 
ВЕРНУЛ 2 


хі 3 
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Здесь важно, что каждый вызов создает собственную копию х. Обратиться 
к переменной х, принадлежащей другой функции, невозможно. 


Стек играет важную роль в рекурсии. В начальном примере были представ- 
лены два решения поиска ключа. Вспомните, как выглядел первый: 


СЛОЖИТЬ 
ВСЕ КОРОБКИ 
8 КУЧУ 


ПОКА В КУЧЕ 
ОСТАЮТСЯ КОРОБКИ 


ОТКРЫТЬ 
ЕСЛИ ВНУТРИ 
ЛЕЖИТ КМЮҸ, 
поиск 


ЗАКОНЧЕН 


Вэтом случае все коробки лежат в одном месте и вы всегда знаете, в каких 
коробках еще нужно искать ключ. 


СЛЕПУЮЩАЯ КОРОБКА, 
8 КОТОРОЙ ВЫ БУЛЕТЕ 
ИСКАТЬ КЛЮЧ 


КУЧА КОРОБОК 


Нов рекурсивном решении никакой кучи не существует. 
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ПРОВЕРИТЬ 
КАЖДЫХ 
ПРЕДМЕТ 

6 КОРОБКЕ 


ЕСЛИ ВЫ 
НАЙДЕТЕ 
КОРОБКУ -- 


АПЕТЕ 

ЕСЛИ ВЫ НААДЕ 
КМЮч, поиск 

ЗАКОНЧЕН\ 


Если кучи нет, то как ваш алгоритм узнает, в каких коробках еще нужно 
искать? Пример: 


ЬЫ ПРОВЕРЯЕТЕ ЬНУТРИ ОБНАРУЖИВАЮТСЯ 
КОРОБКУ А КОРОБКИ ВИС 


== 

ЪЫ ПРОВЕРЯЕТЕ Ь НЕЙ ЛЕЖИТ 
КОРОБКУ В КОРОБКА Р 
ГОЛ 
ЕРУ 

Ы оО | ет 


ЬЫ ПРОВЕРЯЕТЕ ОНА ПУСТА 
КОРОБКУ р 
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К этому моменту стек вызовов выглядит примерно так: 


КОРОБКИ, КОТОРЫЕ 
[ ЕЩЕ НУЖНО ПРОВЕРИТЬ 


«Куча коробок» хранится в стеке! Это стек незавершенных вызовов функ- 
ции, каждый из которых ведет собственный незаконченный список коробок 
для поиска. Стек в данном случае особенно удобен, потому что вам не нуж- 
но отслеживать коробки самостоятельно — стек делает это за вас. 


Стек удобен, но у него есть своя цена: сохранение всей промежуточной 
информации может привести к значительным затратам памяти. Каждый 
вызов функции занимает не много памяти, но если стек станет слишком 
высоким, это будет означать, что ваш компьютер сохраняет информацию 
по очень многим вызовам. На этой стадии есть два варианта: 


а Переписать код с использованием цикла. 


о Иногда можно воспользоваться так называемой хвостовой рекурсией. 
Это непростая тема, которая выходит за рамки книги. Вдобавок она под- 
держивается далеко не во всех языках. 


Упражнения 


3.2 Предположим, вы случайно написали рекурсивную функцию, которая 
бесконечно вызывает саму себя. Как вы уже видели, компьютер вы- 
деляет память в стеке при каждом вызове функции. А что произойдет 
со стеком при бесконечном выполнении рекурсии? 
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Шпаргалка 


о Когда функция вызывает саму себя, это 
называется рекурсией. 


о В каждой рекурсивной функции должно 
быть два случая: базовый и рекурсивный. 


о Стек поддерживает две операции: зане- 
сение и извлечение элементов. 


о Все вызовы функций сохраняются в сте- 
ке вызовов. 


о Если стек вызовов станет очень большим, он займет слишком много 
памяти. 


Быстрая сортировка 


В этой главе 


у Вы узнаете о стратегии «разделяй и властвуй». Слу- 
чается так, что задача, над которой вы трудитесь, 
не решается ни одним из известных вам алгоритмов. 
Столкнувшись с такой задачей, хороший программист 
не сдается. У него существует целый арсенал приемов, 
которые он пытается использовать для получения ре- 
шения. «Разделяй и властвуй» — первая общая стра- 
тегия, с которой вы познакомитесь. 


/ Далее рассматривается быстрая сортировка — эле- 
гантный алгоритм сортировки, часто применяемый на 
практике. Алгоритм быстрой сортировки использует 
стратегию «разделяй и властвуй». 


ооо ооо овохо оо оо ооо охото оох ооо ооо оо чое 


Предыдущая глава была посвящена рекурсии. В этой главе вы воспользу- 
етесь новыми знаниями для решения практических задач. Мы исследуем 
принцип «разделяй и властвуй», хорошо известный рекурсивный метод 
решения задач. 


В этой главе мы постепенно добираемся до полноценных алгоритмов. 
В конце концов, алгоритм не особенно полезен, если он способен решать 
задачу только одного типа, — «разделяй и властвуй» помогает выработать 
новый подход к решению задач. Это всего лишь еще один инструмент в ва- 
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шем арсенале. Столкнувшись с новой задачей, не впадайте в ступор. Вместо 
этого спросите себя: «А нельзя ли решить эту задачу, применив стратегию 
“разделяй и властвуй”? > 


К концу этой главы вы освоите свой первый серьезный алгоритм «разделяй 
и властвуй»: быструю сортировку. Этот алгоритм сортировки работает на- 
много быстрее сортировки выбором (о которой рассказывалось в главе 2). 
Он является хорошим примером элегантного кода. 


«Разделяй и властвуй» 


Возможно, вы не сразу поймете суть стра- 
тегии «разделяй и властвуй», поэтому 
мы рассмотрим три примера. Сначала 
я приведу наглядный пример. Потом мы 
разберем пример кода, который выгля- 
дит не так красиво, но, пожалуй, вос- 
принимается проще. В завершение будет 
рассмотрена быстрая сортировка — алгоритм 
сортировки, использующий стратегию «разделяй 
и властвуй». 


Представьте, что вы фермер, владеющий земельным участком. 


1680 м 


сыны 


ло лу у, ` 
илл му 29у, 28 4 "17114 


е р №9 о л мод 17 
7,1 { ДЕНТ У ПАЎ: од нун» 
ДЕМ АЖ] ло ре 1,22 
НОКАУТ 640 м 
0? 1 . у г’), УА ПОДАРИ 
б А 
ул › , фь ^ои, СА 
эх, хі ПОЕЛИ 
САУ , 
ЫРЫА 2 
\ О р 
) ль АНА 


Вы хотите равномерно разделить землю на одинаковые квадратные участ- 
ки. Участки ДОЛЖНЫ быть настолько большими, насколько это возможно, 
так что ни одно из следующих решений не подойдет. 
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ЪСЕ УЧАСТКИ 


СЛИШКОМ 
КЕ КВАПРАТНЫЕ МАЛЕНЬКИЕ ПОЛЖНЫ БЫТЬ 


О.ПИНАКОВЫМИ 


Как определить наибольший размер квадрата для участка? Воспользуйтесь 
стратегией «разделяй и властвуй»! Алгоритмы на базе этой стратегии яв- 
ляются рекурсивными. 


Решение задачи методом «разделяй и властвуй» состоит из двух шагов: 


1. Сначала определяется базовый случай. Это должен быть простейший 
случай из всех возможных. 


2. Задача делится или сокращается до тех пор, пока не будет сведена к ба- 
зовому случаю. 


А теперь воспользуемся стратегией «разделяй и властвуй» для поиска ре- 
шения этой задачи. Каков самый большой размер квадрата, который может 
использоваться? 


Для начала нужно определить базовый случай. Самая простая ситуация — 
если длина одной стороны кратна длине другой стороны. 


50 м 
25 м 


12% 
УХУ ДОР) зай 


ТУСИ 2 
ое 25 м 
ИУ в 25 м 


и 


Предположим, длина одной стороны составляет 25 м, а длина другой 50 м. 
В этом случае размер самого большого участка составляет 25 мх 25 м, и на- 
дел после деления будет состоять из двух участков. 
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Теперь нужно вычислить рекурсивный случай. Здесь-то вам на помощь 
и приходит стратегия «разделяй и властвуй». В соответствии с ней при 
каждом рекурсивном вызове задача должна сокращаться. Как сократить 
эту задачу? Для начала разметим самые большие участки, которые можно 


использовать. 


м НЕРАСПРЕ- 
ПЕЛЕННЫЙ 2292 
УЧАСТКА остАТОК °°*' 


. 
Е 


В исходном наделе можно разместить два участка 640 х 640, и еще останется 
место. Тут-то и наступает момент истины. Нераспределенный остаток — это 
тоже надел земли, который нужно разделить. Так почему бы не применить 
к нему тот же алгоритм? 


640 м 


пъ 
э... 
х. 
` &\ муул 


—— 
400 м 


НОВЫЙ НАДЕЛ, КОТОРЫЙ ТОЖЕ 
НУЖНО РАЗБИТЬ НА УЧАСТКИ 


Итак, мы начали с надела 1680 х 640, который необходимо разделить на 
участки. Но теперь разделить нужно меньший сегмент — 640 х 400. Если 
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вы найдете самый большой участок, подходящий для этого размера, это 
будет самый большой участок, подходящий для всей фермы. Мы только 
что сократили задачу с размера 1680 х 640 до 640 х 400! 


240 м Применим тот же алгоритм снова. Если начать 
с участка 640 х 400, то размеры самого большого 
квадрата, который можно создать, составляют 


400 м 
400 х 400 м. 


——_/ 
400 м 


Остается меньший сегмент с размерами 400 х 240 м. 


2 
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Отсекая поделенную часть, мы приходим кеще меньшему размеру сегмента, 
240 х 160 м. 


240 м 
- 

240 м 
о 
А КК >> 
ее н 
„5 2: 


После очередного отсечения получается еще меньший сегмент. 


} г0м й 
учо Маб м 


ком 0 0А 
—^ 
сеа 


160 м 
БАЗОВЫЙ СЛУЧАЙ! 


Эге, да мы пришли к базовому случаю: 160 кратно 80. Если разбить этот 
сегмент на квадраты, ничего лишнего не останется! 


аб 
х ИГ. 
Ра 
Ма 
— —— < 
80 м 80м ` 
2 


ГА. у 


Итак, для исходного надела земли самый большой размер участка будет 
равен 80 х 80 м. 
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Вспомните, как работает стратегия «разделяй и властвуй»: 
1. Определите простейший случай как базовый. 
2. Придумайте, как свести задачу к базовому случаю. 


«Разделяй и властвуй» — не простой алгоритм, который можно применить 
для решения задачи. Скорее, это подход к решению задачи. Рассмотрим 
еще один пример. 


[214] 6. Имеется массив чисел. 


Нужно просуммировать все числа и вернуть сумму. Сделать это в цикле 
совсем не сложно: 


де+ зит(агг): 
фОфа1 = ө 
Ғог х іп агг: 
фофа1 += х 
гефигп Ёоёа1 


рпіпе ѕит([1, 2, 3, 4]) 


Но как сделать то же самое с использованием рекурсивной функции? 


Шаг 1: определить базовый случай. Как выглядит самый простой массив, 
который вы можете получить? Подумайте, как должен выглядеть про- 
стейший случай, и продолжайте читать. Если у вас будет массив с 0 или 
1 элементом, он суммируется достаточно просто. 
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] О ЭЛЕМЕНТОВ = СУММА РАВНА О 


БАЗОВЫЙ 
СЛУЧАЙ 1 ЭЛЕМЕНТ = СУММА РАВНА 3 


Итак, с базовым случаем мы определились. 


Шаг 2: каждый рекурсивный вызов должен приближать вас к пустому мас- 
сиву. Как уменьшить размер задачи? Один из возможных способов: 


Ѕот 21416)) 12 


2 + ѕом(21]) = 2+1 +12 


В любом случае результат равен 12. Но во второй версии функции ѕит 
передается меньший массив. А это означает, что вы сократили размер своей 


задачи! 


Функция ѕит может работать по следующей схеме: 


ЕСЛИ СПИСОК Ь ПРОТИВНОМ СЛУЧАЕ РЕЗУЛЬ- 

ПУСТ, ВЕР- ТАТ РАВЕН СУММЕ ПЕРВОГО 

НУТЬ 0 ЧИСЛА В СПИСКЕ И СУММЫ 
ОСТАЛЬНОГО СПИСКА 
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А вот как это выглядит в действии. 


РЕЗУЛЬТАТ 
м 
‘ 
ОБА ЭТИХ Й 1 2 
ТА ом (31418) Е 
у 
У.а 2418 =12 
Д-+ з (81) 4+6 = 1 
БАЗОВЫЙ чм 7 
РИ(с1)! 2 6 . 
Вспомните, что при рекурсии сохраняется состояние. 
КИ ОДИН ИЗ ЭТИХ 
ВЫЗОВОВ ФУНКЦИИ НЕ ЪСПОМНИТЕ, ЧТО РЕКУРСИЯ 
ЗАВЕРШИТСЯ .00 ТОГО, СОХРАНЯЕТ СОСТОЯНИЕ ЭТИХ 
КАК БУДЕТ ОБНАРУЖЕН ЧАСТИЧНО ЗАВЕРШЕННЫХ 
БАЗОВЫЙ СЛУЧАЙ! 8530808 ФУНКЦИИ 
“у (а 4 
\ (286) и: 9 
} в“ 


2+ зив([4[6]) 2419 =12 
} т 
дот) 4+6 =1ф 
у 


БАЗОВЫЙ СЛУЧАЙІ ) 
р" ѕом([1) = 6. 


ПЕРВЫЙ ВЫЗОВ ФУНКЦИИ, 
КОТОРЫЙ БУДЕТ РЕАЛЬНО 
ЗАВЕРШЕН 
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Когда вы пишете рекурсивную функцию, в которой задействован массив, ба- 
зовым случаем часто оказывается пустой массив или массив из одного эле- 
мента. Если вы не знаете, с чего начать, — начните с этого. 


ПАРА СЛОВ О ФУНКЦИОНАЛЬНОМ ПРОГРАММИРОВАНИИ 


Зачем применять рекурсию, если задача легко решается с циклом? 
Вполне резонный вопрос. Что ж, пора познакомиться с функцио- 
нальным программированием! 


В языках функционального программирования, таких как Назке!, 
циклов нет, поэтому для написания подобных функций приходит- 
ся применять рекурсию. Если вы хорошо понимаете рекурсию, вам 
будет проще изучать функциональные языки. Например, вот как вы- 
глядит функция зит на языке НазКе|: 


зим [] = ё о кав нудна Базовый случай 
ѕит (х:х$) = х + ($им х$) Рекурсивный случай 


На первый взгляд кажется, что одна функция имеет два определе- 
ния. Первое определение выполняется для базового случая, а вто- 
рое — для рекурсивного случая. Функцию также можно записать на 
НаѕКе]] с использованием команды іЁ 


ѕит агг = 1+ агг == [] 
їһеп ө 
е15е (һеаа агг) + (ѕит (%аі1 агг)) 


Но первое определение проще читается. Так как рекурсия широко 
применяется в языке НазКе!|, в него включены всевозможные удоб- 
ства для ее использования. Если вам нравится рекурсия или вы хо- 
тите изучить новый язык — присмотритесь к НаѕКејі. 
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Упражнения 


4.1 Напишите код для функции зим (см. выше). 


4.2 Напишите рекурсивную функцию для подсчета 
элементов в списке. 


4.3 Найдите наибольшее число в списке. 


4.4 Помните бинарный поиск из главы 1? Он тоже 
относится к классу алгоритмов «разделяй и властвуй». Сможете ли вы 
определить базовый и рекурсивный случай для бинарного поиска? 


Быстрая сортировка 


Быстрая сортировка относится к алгоритмам сортиров- 
ки. Она работает намного быстрее сортировки выбором 
и часто применяется в реальных программах. Например, 

в стандартную библиотеку С входит функция с име- 
нем 45ог*, реализующая быструю сортировку. Быстрая 


сортировка также основана на стратегии «разделяй 
и властвуй». 


Воспользуемся быстрой сортировкой для упорядо- 
чения массива. Как выглядит самый простой массив, 
с которым может справиться алгоритм сортировки 
(помните подсказку из предыдущего раздела)? Не- 


которые массивы вообще не нуждаются в сорти- 
ровке. 


[ 1 <— ПУСТОЙ МАССИВ 
СОРТИРОВАТЬ 
ТАКИЕ МАССИВЫ 


НЕ НУЖНО < МАССИВ С ОПНИМ ЭЛЕМЕНТОМ 
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Пустые массивы и массивы, содержащие всего один элемент, станут базо- 
вым случаем. Такие массивы можно просто возвращать в исходном виде — 
сортировать ничего не нужно: 


4е+ ачіск ѕог +(аггау): 
1+ 1еп(аггау) < 2: 
гефигп аггау 


Теперь перейдем к массивам большего размера. Массив из двух элементов 
тоже сортируется без особых проблем. 


<- СРАВНИВАЕМ ДВА ЭЛЕМЕНТА. 
ЕСЛИ ПЕРВЫЙ ЭЛЕМЕНТ МЕНЬШЕ 
ВТОРОГО, МЕНЯЕМ ИХ МЕСТАМИ 


А как насчет массива из трех элементов? 


Помните: мы используем стратегию «разделяй и властвуй». Следователь- 
но, массив должен разделяться до тех пор, пока мы не придем к базовому 
случаю. Алгоритм быстрой сортировки работает так: сначала в массиве 
выбирается элемент, который называется опорным. 


ОПОРНЫЙ 
ЭЛЕМЕНТ 


О том, как выбрать хороший опорный элемент, будет рассказано далее. 
А пока предположим, что опорным становится первый элемент массива. 


Теперь мы находим элементы, меньшие опорного, и элементы, большие 
опорного. 
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ЧИСЛА, ЧИСЛА, БОЛЬШИЕ 33 
МЕНЬШИЕ 33 (ПУСТОЙ МАССИВ) 
ОПОРНЫЙ 
ЭЛЕМЕНТ 


Этот процесс называется разделением. Теперь у вас имеются: 
О подмассив всех элементов, меньших опорного; 

О опорный элемент; 

о подмассив всех элементов, больших опорного. 


Два подмассива не отсортированы — ОНИ просто выделены из исходного 
массива. Но если бы они были отсортированы, то провести сортировку всего 
массива было бы несложно. 


[68115] 691 ] 


Если бы подмассивы были отсортированы, то их можно было бы объеди- 
нить в порядке «левый подмассив — опорный элемент — правый подмас- 
сив» и получить отсортированный массив. В нашем примере получается 
[10, 15] + [33] + [] = [10, 15, 33], то есть отсортированный массив. 


Как отсортировать подмассивы? Базовый случай быстрой сортировки 
уже знает, как сортировать массивы из двух элементов (левый подмассив) 
и пустые массивы (правый подмассив). Следовательно, если применить 
алгоритм быстрой сортировки к двум подмассивам, а затем объединить 
результаты, получится отсортированный массив! 


ачіскѕогі([15, 10]) + [33] + аиіскѕогі([]) 
> [10, 15, 33] НЕ Отсортированный массив 
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Этот метод работает при любом опорном элементе. Допустим, вместо 33 
в качестве опорного был выбран элемент 15. 


10 | <15 


Оба подмассива состоят из одного элемента, а вы уже умеете сортировать 
такие подмассивы. Получается, что вы умеете сортировать массивы из трех 
элементов. Это делается так: 


1. Выбрать опорный элемент. 


2. Разделить массив на два подмассива: элементы, меньшие опорного, 
и элементы, большие опорного. 


З. Рекурсивно применить быструю сортировку к двум подмассивам. 


Как насчет массива из четырех элементов? 


3271811517 


Предположим, опорным снова выбирается элемент 33. 


[9152] 3 [ | 


Левый подмассив состоит из трех элементов. Вы уже знаете, как сортирует- 
ся массив из трех элементов: нужно рекурсивно применить к нему быструю 
сортировку. 
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8 [] 
[2749 9 


Следовательно, вы можете отсортировать массив из четырех элементов. 
А если вы можете отсортировать массив из четырех элементов, то вы так- 
же можете отсортировать массив из пяти элементов. Почему? Допустим, 
имеется массив из пяти элементов. 


з 


Вот как выглядят все варианты разделения этого массива в зависимости от 
выбранног о опорного элемента: 


г <> [31215 4] 
2)» [21814] 


2115 БИ] 
[81211] < Е 
|324 [4] 511] 
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Все эти подмассивы содержат от 0 до 4 элементов. А вы уже знаете, как 
отсортировать массив, содержащий от 0 до 4 элементов, с использовани- 
ем быстрой сортировки! Таким образом, независимо от выбора опорного 
элемента вы можете рекурсивно вызывать быструю сортировку для двух 
подмассивов. 


Например, предположим, что в качестве опорного выбирается элемент 3. 
Вы применяете быструю сортировку к подмассивам. 


тоа (ЕТ) © чу= Е) 


у 
1915 88] 
\ 
11213125 


Подмассивы отсортированы, и теперь из них можно собрать отсортирован- 
ный массив. Решение работает даже в том случае, если выбрать в качестве 
опорного элемент 5: 


[2 9; 45 ом. (С В), 


у 

<] 
у 

121 [415, 


зо? 


Быстрая сортировка 91 


Итак, решение работает независимо от выбора опорного элемента. Следо- 
вательно, вы можете отсортировать массив из пяти элементов. По той же 
логике вы можете отсортировать массив из шести элементов ит. д. 
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А вот как выглядит программный код быстрой сортировки: 


де+ ди1ск$ог*(аггау): 


и у 2: а Базовый случай: массивы с 0и 1 элементом 
Т инни" 
е15е: у РИКО 
ріуої = аггау[0] ж...--....--.-.. Рекурсивный случай 


р Подмассив всех элементов, 
1е55 = [і Ғог 1 іп аггау[1:] 1+ 1 <= ріуої] «--·-------:-. меньших опорного 


Подмассив всех элементов, 


Бгеаїег = [1 Ғог 1 іп аггау[1:] 14+ 1 > ріхої] «-·-------- больших опорного 


геёигп даиіскѕогї(1еѕ5) + [ріуої] + ди1сКзогЕ (вгеа*ег) 


ргіпі аиіскѕогі([10, 5, 2, 3]) 


Снова об «О-большом» 


Алгоритм быстрой сортировки уникален тем, что его скорость зависит от 
выбора опорного элемента. Прежде чем рассматривать быструю сорти- 
ровку, вспомним наиболее типичные варианты времени выполнения для 
«О-большое». 


БИНАРНЫЙ ПРОСТОЙ БЫСТРАЯ 

ПРИМЕР СОРТИРОВКА М 
алгоритма: ПОЙСК поиск СОРТИРОВКА бывором САО КОК 

Рта [а= Рай РД |. |. 

массива, 05°) ОС" одн), Осе) О 

10 9.3 с т Е 1р с прути 
66: 

ме ы 6С Левин 24510". 

1000 1с 196 С 436 с 23.2 ЧАС 1.2410, 


Оценки для медленного компьютера, выполняющего 10 операций в секунду 


На графиках приведены примерные оценки времени при выполнении 
10 операций в секунду. Они не претендуют на точность, а всего лишь дают 
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представление о том, насколько различается время выполнения. Конечно, 
на практике ваш компьютер способен выполнять гораздо больше 10 опера- 
ций в секунду. 


Для каждого времени выполнения также приведен пример алгоритма. 
Возьмем алгоритм сортировки выбором, о котором вы узнали в главе 2. 
Он обладает временем О(02), и это довольно медленный алгоритм. 


Другой алгоритм сортировки — так называемая сортировка слиянием — 
работает за время О(п Іор п). Намного быстрее! С быстрой сортировкой 
дело обстоит сложнее. В худшем случае быстрая сортировка работает за 
время О(02). 


Ничуть не лучше сортировки выбором! Но это худший случай, а в среднем 
быстрая сортировка выполняется за время О(п Іор п). Вероятно, вы спро- 
сите: 


О что в данном случае понимается под «худшим» И «средним» случаем? 


О если быстрая сортировка в среднем выполняется за время О(п 108 п), 
а сортировка слиянием выполняется за время О(п 105 п) всегда, то по- 
чему бы не использовать сортировку слиянием? Разве она не быстрее? 


Сортировка слиянием и быстрая сортировка 


Допустим, у вас имеется простая функция для вывода каждого элемента 
в списке: 


де+ ргіпЕ і+етѕ (1154): 
Ғог іет іп 1151: 
ргіпё 1{ет 


Эта функция последовательно перебирает все элементы списка и выво- 
дит их. Так как функция перебирает весь список, она выполняется за вре- 
мя О(п). Теперь предположим, что вы изменили эту функцию и она делает 
секундную паузу перед выводом: 


Ғгот іме ітрогі $1еер 
аеғ рг1п*+_1%ет$2 (115%): 
ог 1{ет іп 1151: 
51еер(1) 
ргіпЕ і+ем 
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Перед выводом элемента функция делает паузу продолжительностью 
в 1 секунду. Предположим, вы выводите список из пяти элементов с ис- 
пользованием обеих функций: 


22161916 
ҹ 


рун - Нем : 2463 1% 


ри _Немз2: <пАузА> 2 «ПАУЗА Д.‹плузА> 6 «пауз» 8 <ПАҮЗА> 12 


Обе функции проходят по списку один раз, и обе выполняются за вре- 
мя О(п). Как вы думаете, какая из них работает быстрее? Я думаю, ргіпё_ 
іетѕ работает намного быстрее, потому что она не делает паузу перед вы- 
водом каждого элемента. Следовательно, даже при том, что обе функции 
имеют одинаковую скорость «О-большое», реально ргіп_ібетѕ работает 
быстрее. Когда вы используете «О-большое» (например, О(п)), в действи- 
тельности это означает следующее: 


сжПһ 
ФИКСИРОВАННЫЙ ый’ 
ПРОМЕЖУТОК 
ВРЕМЕНИ 


Здесь с — некоторый фиксированный промежуток времени для вашего 
алгоритма. Он называется константой. Например, время выполнения 
может составлять 10 миллисекунд * п для рг1п*_14етз против 1 секунды * п 
для ргіпі_іТетѕ2. 


Обычно константа игнорируется, потому что если два алгоритма имеют 
разное время «О-большое», она роли не играет. Для примера возьмем би- 
нарный и простой поиск. Допустим, такие константы присутствуют в обоих 
алгоритмах. 


1б меж м 1 с ж\оди 


ПРОСТОЙ ПОИСК БИНАРНЫЙ ПОИСК 
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Первая реакция: «Ого! У простого поиска константа равна 10 миллисекун- 
дам, а у бинарного поиска – 1 секунда. Простой поиск намного быстрее!» 
Теперь предположим, что поиск ведется по списку из 4 миллиардов элемен- 
тов. Время будет таким: 


простой поиск | 1Фме № 4- миллиро = 4-63 оня 


БИНАРНЫЙ ПОИСК 1. х 32 $2 секунды 


Как видите, бинарный поиск все равно работает намного быстрее. Констан- 
та ни на что не повлияла. 


Однако в некоторых случаях константа может иметь значение. Один из 
примеров такого рода — быстрая сортировка и сортировка слиянием. У бы- 
строй сортировки константа меньше, чем у сортировки слиянием, поэтому, 
несмотря на то что оба алгоритма характеризуются временем О(и 105 п), 
быстрая сортировка работает быстрее. А на практике быстрая сортировка 
работает быстрее, потому что средний случай встречается намного чаще 
худшего. 


А теперь ответим на первый вопрос: как выглядит средний случай по срав- 
нению с худшим? 


Средний и худший случай 


Быстродействие быстрой сортировки сильно зависит от выбора опорного 
элемента. Предположим, опорным всегда выбирается первый элемент, а бы- 
страя сортировка применяется к уже отсортированному массиву. Быстрая 
сортировка не проверяет, отсортирован входной массив или нет, и все равно 
пытается его отсортировать. 
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Обратите внимание: на этот раз массив не разделяется на две половины. 
Вместо этого один из двух подмассивов всегда пуст, так что стек вызовов 
получается очень длинным. Теперь предположим, что в качестве опорного 
всегда выбирается средний элемент. Посмотрим, как выглядит стек вызовов 


в этом случае. 
РТТ 
ФЕ ке 
ыФы © а 
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Стек намного короче! Массив каждый раз делится надвое, поэтому такое 
количество рекурсивных вызовов излишне. Вы быстрее добираетесь до 
базового случая, и стек вызовов получается более коротким. 


Первый из рассмотренных примеров описывает худший сценарий, а вто- 
рой — лучший. В худшем случае размер стека описывается как О(п). В луч- 
шем случае он составит О(108 п). 


Теперь рассмотрим первый уровень стека. Один элемент выбирается опор- 
ным, а остальные элементы делятся на подмассивы. Вы перебираете все 
восемь элементов массива, поэтому первая операция выполняется за вре- 
мя О(п). На этом уровне стека вызовов вы обратились ко всем восьми 
элементам. Но на самом деле вы обращаетесь к О(п) элементам на каждом 
уровне стека вызовов! 


энн 
ә | ГЕТЕ] 
72 (58151118) 
г НЕЕ 
г 0) 05191918] 
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Даже если массив будет разделен другим способом, вы все равно каждый 
раз обращаетесь к О(и) элементам. 
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Итак, завершение каждого уровня требует времени О(п). 


РАЗПЕЛЕНИЕ ЭТОГО 
ҮР ъвовмо [12 34 5898] 
ооо [212 13181511918) 
ЬРЕМЯ О(и) < [1 [+2 | сонына 
Е ненна сеа АЙЫ 
ЪРЕМЯ О(и) ӨЕ [5) < 


тот 
В дь ЗАНАЛ 1); [+] 


ВРЕМЯ О(и) 


В этом примере существуют О(10$ п) (с технической точки зрения пра- 
вильнее сказать «высота стека вызовов равна О(1оё п)») уровней. А так 
как каждый уровень занимает время О(п), то весь алгоритм займет время 


О(п) * О(Іов п) = О(п Іов п). Это сценарий лучшего случая. 


В худшем случае существуют О(п) уровней, поэтому алгоритм займет время 


О(п)* О(п) = О(и?). 


А теперь сюрприз: лучший случай также является средним. Если вы всегда 
будете выбирать опорным элементом случайный элемент в массиве, бы- 
страя сортировка в среднем завершится за время О(п 108 п). Это один из 
самых быстрых существующих алгоритмов сортировки, который заодно 


является хорошим примером стратегии «разделяй и властвуй». 
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Упражнения 


Запишите «О-большое» для каждой из следующих операций ? 

4.5 Вывод значения каждого элемента массива. 

4.6 Удвоение значения каждого элемента массива. 

4.7 Удвоение значения только первого элемента массива. 

4.8 Создание таблицы умножения для всех элементов массива. Например, 
если массив состоит из элементов [2, 3, 7, 8, 10], сначала каждый эле- 


мент умножается на 2, затем каждый элемент умножается на 3, затем 
на 7 ит. д. 


Шпаргалка 


О Стратегия «разделяй 
и властвуй» основа- > _ 
на на разбиении задачи 7 
на уменьшающиеся фраг- м 


— м 

с 
менты. Если вы используете х= : у : 
стратегию «разделяй и вла- 177 


ствуй» СО СПИСКОМ, ТО базовым 
случаем, скорее всего, является 
пустой массив или массив из одного 
элемента. 


о Если вы реализуете алгоритм быстрой сортировки, выберите в качестве 
опорного случайный элемент. Среднее время выполнения быстрой сор- 
тировки составляет О(п Іор п)! 


о Константы в «О-большом» иногда могут иметь значение. Именно по 
этой причине быстрая сортировка быстрее сортировки слиянием. 


о При сравнении простой сортировки с бинарной константа почти никогда 
роли не играет, потому что О(Іов п) слишком сильно превосходит О(п) 
по скорости при большом размере списка. 


Хеш-таблицы 


хехе 


В этой главе 


м Вы узнаете о хеш-таблицах — одной из самых полез- 
ных базовых структур данных. Хеш-таблицы находят 
множество применений; в этой главе рассматриваются 
распространенные варианты использования. 


м Вы изучите внутреннее устройство хеш-таблиц: реа- 
лизацию, коллизии и хеш-функции. Это поможет вам 
понять, как анализируется производительность хеш- 
таблицы. 


ооо оо очов ооо ооо чохо чо ооо во ооо оо чочоо ооо овочь 


Представьте, что вы продавец в маленьком магазинчи- 
ке. Когда клиент покупает товары, вы проверяете их 
цену по книге. Если записи в книге не упорядочены 
по алфавиту, то поиск слова «апельсины» в каждой 
строке займет слишком много времени. Фактически 
вам придется проводить простой поиск из главы 1, 
а для этого нужно проверить каждую запись. Помните, 
сколько времени это займет? О(п). Если же книга упо- 
рядочена по алфавиту, вы сможете воспользоваться 
бинарным поиском, время которого составляет всего 
О(Іор п). 
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ЯЙЦА ... 2.49% ГРУШИ .. 29 + 
молоко..1.9а $ ЯЙЦА ...2.49$ 
ГРУШИ .... 34 + молоко.. 4.99$ 
ОТСОРТИРОВАННЫЙ НЕСОРТИРОВАННЫЙ 
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ЬРЕМЯ ЪРЕМЯ 


На всякий случай напомню, что время О(п) и О(10$ п) — далеко не одно 
и то же! Предположим, вы можете просмотреть 10 записей в книге за се- 
кунду. В следующей таблице показано, сколько времени займет простой 
и бинарный поиск. 


КОЛИЧЕСТВО 
ЗАПИСЕЙ 
В КНИГЕ Ое 10 од һ) 
НЕОБХОДИМО ПРОВЕРИТЬ 


__ 4$9 | 49° 1с < 106100 = 3 СТРОК 
1002 1.66 мин 1с < НЕОБХОШИМО ПРОВЕРИТЬ 


———__ 1061000 = 10 СТРОК 


99 у 
180 ен ыы ^-106,10000 = 14 СТРОК 


=2 С 


Вы уже знаете, что бинарный поиск работает очень быстро. Но поиск 
данных в книге — головная боль для кассира, даже если ее содержимое 
отсортировано. Пока вы листаете страницы, клиент потихоньку начинает 
ВЫХОДИТЬ ИЗ себя. Гораздо удобнее было бы завести помощницу, которая 
помнит все названия товаров и цены. Тогда ничего искать вообще не при- 
дется: вы спрашиваете помощницу, а она мгновенно отвечает. 


102 Глава 5. Хеш-таблицы 


67 ЦЕНТОВ 


Е 


СА Д 
СА 


<= 


Ваша помощница Мэгги может за время О(1) сообщить цену любого това- 


ра, независимо от размера книги. Она работает еще быстрее, чем бинарный 
поиск. 


ПРОСТОЙ БИНАРНЫЙ 
ЛИЧЕСТВО поиск поиск МЭТГИ 
ко 


ЭЛЕМЕНТОВ 


 КИИТЕ Око Оба) | 019; 
| —— 


а 


аф 19 ‹ 1с МГНОВЕННО 


——- 


1099 1.6 мин 1с МГНОВЕННО 
12008 146.6 мин! 2. МГНОВЕННО 


Просто чудо, а не девушка! И где взять такую Мэгги? 


Обратимся к структурам данных. Пока вам известны две структуры данных: 
массивы и списки. (О стеках я не говорю, потому что нормальный поиск 
в стеке невозможен.) Книгу можно реализовать в виде массива. 


(яйца, 2.44) (коноко, 4) (тетш, оз) 


' В русском переводе арріе переведено как апельсин, а не как яблоко, чтобы слово начина- 
лось на букву «а». — Примеч. пер. 


Хеш-функции 103 


Каждый элемент массива на самом деле состоит из двух элементов: назва- 
ния товара и его цены. Если отсортировать массив по имени, вы сможете 
провести по нему бинарный поиск для определения цены товара. Это озна- 
чает, что поиск будет выполняться за время О(Іор п). Но нам нужно, чтобы 
поиск выполнялся за время О(1) (другими словами, вы хотите создать 
«Мэгги» ). В этом вам помогут хеш-функции. 


Хеш-функции 


Хеш-функция представляет собой функцию, которая получает строку! 
и возвращает число: 


«НАМАСТЕ» > и 
«ПРИВЕТ» ‚СР 4. 
«ХЕЛЛО» СР 2. 


{ ХЕШ-ФУНКЦИЯ 


„ии. д. ... 


В научной терминологии говорят, что хеш-функция «отображает строки 
на числа». Можно подумать, что найти закономерности получения чисел 
для подаваемых на вход строк невозможно. Однако хеш-функция должна 
соответствовать некоторым требованиям: 


О Она должна быть последовательной. Допустим, вы передали ей стро- 
ку «апельсины» и получили 4. Это значит, что каждый раз в будущем, 
передавая ей строку «апельсины», вы будете получать 4. Без этого хеш- 
таблица бесполезна. 


о Разным словам должны соответствовать разные числа. Например, хеш- 
функция, которая возвращает 1 для каждого полученного слова, никуда 


' Под «строкой» в данном случае следует понимать любые данные — последовательность 
байтов. 
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не годится. В идеале каждое входное слово Должно отображаться на свое 
число. 


Итак, хеш-функция связывает строки с числами. Зачем это нужно, спросите 
вы? Так ведь это позволит нам реализовать «Мэгги»! 


Начнем с пустого массива: 


КОД Е 


9123 4 


Все цены будут храниться в этом массиве; передадим хеш-функции строку 


«апельсины». 
«АПЕЛЬСИНЫ» - 3 


Хеш-функция выдает значение «3». Сохраним цену апельсинов в элементе 
массива с индексом 3. 


АПЕЛЬСИНЫ 

у 
ГГ [9.9 
9812 з д4 


Добавим молоко. Передадим хеш-функции строку «молоко». 


молоко АПЕЛЬСИНЫ 
У 


У 
а] Јов 


фф 2 зА 
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Продолжайте действовать так, и со временем весь массив будет заполнен 


ценами на товары. 
оза | 2.44 | 0.63 


А теперь вы спрашиваете: сколько стоит авокадо? Искать в массиве ничего 
не нужно, просто передайте строку «авокадо» хеш-функции. 


«АВОКАДО» У 4 Е 4. 


Результат показывает, что значение хранится в элементе с индексом 4. 
И оно, конечно, там и находится! 


АВОКАДО = 1 АЯ 


72 


оза | 2.44 0.43 | 14] Р 


‘т \ 


Хеш-функция сообщает, где хранится цена, и вам вообще не нужно ничего 
искать! Такое решение работает, потому что: 


о Хеш-функция неизменно связывает название с одним индексом. Каждый 
раз, когда она вызывается для строки «авокадо», вы получаете обратно 
одно и то же число. При первом вызове ЭТОЙ функции вы узнаете, где 
следует сохранить цену авокадо, а при последующих вызовах она со- 
общает, где взять эту цену. 


о Хеш-функция связывает разные строки с разными индексами. «Авока- 
до» связывается с индексом 4, а «молоко» — с индексом 0. Для каждой 
строки находится отдельная позиция массива, в которой сохраняется 
цена этого товара. 
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О Хеш-функция знает размер массива и возвращает только действитель- 
ные индексы. Таким образом, если длина массива равна 5 элементам, 
хеш-функция не вернет 100, потому что это значение не является дей- 
ствительным индексом в массиве. 


Поздравляю: вы создали «Мэгги»! Свяжите воедино хеш-функцию и мас- 
сив, и вы получите структуру данных, которая называется хеш-таблицей. 
Хеш-таблица станет первой изученной вами структурой данных, с которой 
связана дополнительная логика. Массивы и списки напрямую отображают- 
ся на адреса памяти, но хеш-таблицы устроены более умно. Они определяют 
место хранения элементов при помощи хеш-функций. 


Вероятно, хеш-таблицы станут самой полезной из сложных структур дан- 
ных, с которыми вы познакомитесь. Они также известны под другими 
названиями: «ассоциативные массивы», «словари», «отображения», «хеш- 
карты» или просто «хеши». Хеш-таблицы исключительно быстро работают! 
Помните описание массивов и связанных списков из главы 2? Обращение 
к элементу массива происходит мгновенно. А хеш-таблицы используют 
массивы для хранения данных, поэтому при обращении к элементам они 
не уступают массивам. 


Скорее всего, вам никогда не придется заниматься реализацией хеш-таблиц 
самостоятельно. В любом приличном языке существует реализация хеш- 
таблиц. В Русћоп тоже есть хеш-таблицы; они называются словарями. Новая 
хеш-таблица создается функцией 91с*: 


>>> боок = 91с*() 


ПУСТАЯ 
ХЕШ-ТАБЛИЦА 


Боок — новая хеш-таблица. Добавим в боок несколько цен: 


>>> Боок[ "арр1е"] = 0.67 же Апельсины стоят 67 центов 
>>> Боок[ "т11К"] = 1.49 ыы Молоко стоит 1 доллар 49 центов 
>>> Боок[ "ауосадо"] = 1.49 


>>> ргіпі Боок 
{'ауосадо': 1.49, 'арр1е': 0.67, 'м11К': 1.49} 
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Пока все просто! А теперь запросим цену авокадо: 


>>> рг1пЕ боок[ "ауосайо"] 
1.49 ане Цена авокадо 


Хеш-таблица состоит из ключей и значений. 
В хеше Боок имена продуктов являются ключами, 
а цены — значениями. Хеш-таблица связывает 

ключи со значениями. 


В следующем разделе приведены примеры, в ко- Бу БЛИЦА С ЦЕНАМИ 
торых хеш-таблицы приносят большую пользу. ПРОДУКТЫ 


Упражнения 


Очень важно, чтобы хеш-функции были последова- 
тельными, то есть неизменно возвращали один и тот 
же результат для одинаковых входных данных. Если 
это условие будет нарушено, вы не сможете най- 
ти свой элемент после того, как он будет помещен 


в хеш-таблицу! 


Какие из следующих функций являются последовательными? 


5.1 #(х) = же Возвращает "1" для любых входных значений 

5.2 +(х) = гапа() < Возвращает случайное число 

5.3 +(х) = пех _етр+у_5101() ж Возвращает индекс следующего 
5.4 (х) = 1еп(х) аа еонслзоназанатса ява Возвращает длину пустого элемента в хеш-таблице 


полученной строки 


Примеры использования 


Хеш-таблицы повсеместно применяются на практике. В этом разделе пред- 
ставлены некоторые примеры. 
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Использование хеш-таблиц для поиска 


В вашем телефоне есть удобная встроенная телефонная книга. 


С каждым именем связывается номер телефона. 


ВАБЕ МАМА -» БФ 668 1925 
АСЕХ МАММІМС > 494 234 4638 
АМЕ МАЮ —> 415 567 3574 


Предположим, вы хотите построить такую телефонную книгу. Имена людей 
в этой книге связываются с номерами. Телефонная книга должна поддер- 


живать следующие функции: 


о добавление имени человека и номера телефона, связанного с этим име- 
нем; 


о получение номера телефона, связанного с введенным именем. 


Такая задача идеально подходит ДЛЯ хеш-таблиц! Хеш-таблицы ОТЛИЧНО 
работают, когда вы хотите: 


О создать связь, отображающую один объект на другой; 
О найти значение в списке. 


Построить телефонную книгу, в общем-то, несложно. Начните с создания 
новой хеш-таблицы: 


>>> рһопе Боок = 91с*() 
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Кстати, в Рућоп предусмотрена сокращенная запись для создания хеш- 
таблиц: она состоит из двух фигурных скобок: 


>>> рһопе боок = {} еее То же, что рһопе Боок = їсі() 


Добавим в телефонную книгу несколько номеров: 


>>> рһопе_Боок[ "јеппу"] = 8675309 
>>> рһопе боок[ "етегрепсу"] = 911 


Вот и все! Теперь предположим, что вы хотите найти номер телефона Джен- 
ни (Јеппу). Просто передайте ключ хешу: 


>>> рпіпі рћһопе боок[ "јеппу" ] 
8675309 же Номер Дженни 


А теперь представьте, что то же самое вам при- 
шлось бы делать с массивом. 


ХЕШ-ТАБЛИЦА 
КАК ТЕЛЕФОННАЯ КНИГА 


Как бы вы это сделали? Хеш-таблицы упро- 
щают моделирование отношений между объ- 
ектами. 


Хеш-таблицы используются для поиска соответствий в гораздо большем 
масштабе. Например, представьте, что вы хотите перейти на веб-сайт — до- 
пустим, ййр://а@ло. Ваш компьютер должен преобразовать символическое 
имя айі. іо в ІР-адрес. 


АРТ. ло - 123.255.249.55 
Для любого посещаемого веб-сайта его имя преобразуется в 1Р-адрес: 
сообіЕ. СОМ -» 74,125. 234.133 


РАСЕВОСК.СОоМ-» |723.252..\2$.6 
Ѕсрлвр.сом э 23.235. 44.175 
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Связать символическое имя с [Р-адресом? Идеальная задача для хеш- 
таблиц! Этот процесс называется преобразованием №. Хеш-таблицы — 
всего лишь один из способов реализации этой функциональности. 


Исключение дубликатов 


Предположим, вы руководите избирательным участ- 
ком. Естественно, каждый избиратель может про- 
голосовать всего один раз. Как проверить, что он не 
голосовал ранее? Когда человек приходит голосовать, 
вы узнаете его полное имя, а затем проверяете по спи- 
ску уже проголосовавших избирателей. 


Если имя входит в список, значит, этот человек уже проголосовал — гоните 
наглеца! В противном случае вы добавляете имя в список и разрешаете ему 
проголосовать. Теперь предположим, что желающих проголосовать много 
и список уже проголосовавших достаточно велик. 
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Каждый раз, когда кто-то приходит голосовать, вы вынуждены просматри- 
вать этот гигантский список и проверять, голосовал он или нет. Однако 
существует более эффективное решение: воспользоваться хешем! 


Сначала создадим хеш для хранения информации об уже проголосовавших 
ЛЮДЯХ: 


>>> уүоїеа = {} 


Когда кто-то приходит голосовать, проверьте, присутствует ли его имя 
в хеше: 


>>> уа1ие = уо+еӣ. веї ("от") 


Функция ве* возвращает значение, если ключ "®от" присутствует в хеш- 
таблице. В противном случае возвращается №пе. С помощью этой функции 
можно проверить, голосовал избиратель ранее или нет! 


ИЗБИРАТЕЛЬ 
ПРИХОДИТ 
ГОЛОСОВАТЬ 


ПРОВЕРИТЬ, 
ПРИСУТСТВҮЕТ 
ЛИ ИМЯ ЧЕЛОВЕ- 
КА В ХЕШЕ 


НЕТ: 
ДОПУСТИТЬ 


ДА: 
ВЫГНАТЬ 
ЕГО! 


ДОБАВИТЬ 
ИМЯ ИЗБИРА- 
ТЕЛЯ В ХЕШ 
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Код выглядит так: 


уофед = {} 
де+ сНеск_уотег(пате): 
1+ уо+еа. ве* (пате) : 
рг1пе "Кіск +һет ои!" 
е15е: 
уофед[пате] = Тгие 
ргіпі "Іеї їһем уоїе!" 


Давайте протестируем его на нескольких примерах: 


>>> сһеск_мо+ег( "от" ) 
1е{ {Пет уо+е! 
>>> сһеск_моёег("мтіке") 
Іеї {Нет уофе! 
>>> спеск_мофег( "таке" ) 
кіск ©һет оц*! 


Когда Том приходит на участок в первый раз, программа разрешает ему 
проголосовать. Потом приходит Майк, который тоже допускается к голосо- 
ванию. Но потом Майк делает вторую попытку, и на этот раз у него ничего 
не получается. 


Если бы имена проголосовавших хранились в списке, то выполнение 
функции со временем замедлилось бы, потому что функции пришлось 
бы проводить простой поиск по всему списку. Но имена хранятся в хеш- 
таблице, а хеш-таблица мгновенно сообщает, присутствует имя избирателя 
в списке или нет. Проверка дубликатов в хеш-таблице выполняется очень 
быстро. 


Использование хеш-таблицы как кэша 


Последний пример: кэширование. Если вы ра- 
ботаете над созданием веб-сайтов, вероятно, вы 
уже слышали о пользе кэширования. Общая 
идея кэширования такова: допустим, вы захо- 
дите на сайт /асеђрооРћ.сот: 


1. Вы обращаетесь с запросом к серверу Еасе- 
Боок. 
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2. Сервер ненадолго задумывается, генерирует веб-страницу и отправляет 
ее вам. 


3. Вы получаете веб-страницу. 


ЪЕБ-СТРАНИЦА 


СЕРВЕР 


СЕРВЕР 


Например, на ЕасеБооК сервер может собирать информацию о действиях 
всех ваших друзей, чтобы представить ее вам. На то, чтобы собрать всю 
информацию и передать ее вам, требуется пара секунд. С точки зрения 
пользователя, пара секунд — это очень долго. Он начинает думать: «Почему 
БасеБооК работает так медленно?» С другой стороны, серверам Еасеђоок 
приходится обслуживать миллионы людей, и эти пары секунд для них 
суммируются. Серверы ЕасеБооК трудятся в полную силу, чтобы сгенери- 
ровать все эти страницы. Нельзя ли как-то ускорить работу ЕасеБооКк при 
том, чтобы серверы выполняли меньше работы? 


Представьте, что у вас есть племянница, которая пристает к вам с вопро- 
сами о планетах: «Сколько километров от Земли до Марса?», «А сколько 
километров до Луны?», «А до Юпитера?» Каждый раз вы вводите запрос 
в Соое и сообщаете ей ответ. На это уходит пара минут. А теперь пред- 
ставьте, что она всегда спрашивает: «Сколько километров от Земли до 
Луны?» Довольно быстро вы запоминаете, что Луна находится на рас- 
стоянии 384 400 километров от Земли. Искать информацию в Соо8е не 
нужно... вы просто запоминаете и выдаете ответ. Вот так работает меха- 
низм кэширования: сайт просто запоминает данные, вместо того чтобы 
пересчитывать их заново. 


Если вы вошли на Расероок, то весь контент, который вы видите, адапти- 
рован специально для вас. Каждый раз, когда вы заходите на /асефоой.сот, 
серверам приходится думать, какой контент вас интересует. Если же вы не 
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ввели учетные данные на ЕасеБоок, то вы видите страницу входа. Все поль- 
зователи видят одну и ту же страницу входа. ЕасеБооК постоянно получает 
одинаковые запросы: «Я еще не вошел на сайт, выдайте мне домашнюю 
страницу». Сервер перестает выполнять лишнюю работу и генерировать 
домашнюю страницу снова и снова. Вместо этого он запоминает, как вы- 
глядит домашняя страница, и отправляет ее вам. 


з} СОХРАНЕННАЯ 


ВЕБ-СТРАНИЦА 
\ ход 


ВЫПОЛНЕН 
—> 


СЕРВЕР - 
—? РАБОТАЕТ 


ьхой 
НЕ 
ВЫПОЛНЕН > 
д < 


, ) 


ЪЕБ-СТРАНИЦА 


Такой механизм хранения называется кэшированием. Он обладает двумя 
преимуществами: 


О вы получаете веб-страницу намного быстрее, как и в том случае, когда 
вы запомнили расстояние от Земли до Луны. Когда племянница в сле- 
дующий раз задаст вопрос, вам не придется гуглить. Вы можете выдать 
ответ мгновенно; 


о ЕасеБооК приходится выполнять меньше работы. 


Кэширование — стандартный способ ускорения работы. Все крупные веб- 
сайты применяют кэширование. А кэшируемые данные хранятся в хеше! 


ЕасеБооК не просто кэширует домашнюю страницу. Также кэшируются стра- 
ницы «О нас», «Условия использования» и многие другие. Следовательно, 
необходимо создать связь ОКІ-адреса страницы и данных страницы. 
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{се Бок. сото —> ПАННЫЕ СТРАНИЦЫ С ИНФОРМАЦИЕЙ 0 ҒАСЕЬООК 


ФосерооК.сот У ПАННЫЕ ПОМАШНЕЙ СТРАНИЦЫ 


Когда вы посещаете страницу на сайте ЕасеБоок, сайт сначала проверяет, 
хранится ли страница в хеше. 


ЗАПРОС ЧАГ 
С РАСЕБООК 


в 
ПРИСУТСТВУЕТ 
6 ХЕШЕ? 


КЕТ: 
СЕРВЕР выпол- 
НЯЕТ НЕКОТОРУЮ 
РАБОТУ 


ПА: 
ОТПРАВЛЯЮТСЯ 
ПАННЫЕ ИЗ КЭША 


Вот как это выглядит в коде: 


сасһе = {} 
деф веї _раве(иг1): 
4+ сасһе.реі(иг1): 


геёигп сасһе[иг1] < Возвращаются кэшированные данные 
е15е: 

Яаа = реї_да+а_Ғгот_ѕегуег(иг1) 

сасһе[иг1] = ааа еее Данные сначала сохраняются в кэше 


гефигп Яаа 


Здесь сервер выполняет работу только в том случае, если ОКІ не хранится 
в кэше. Однако перед тем, как возвращать данные, вы сохраняете их в кэше. 
Когда пользователь в следующий раз запросит тот же ОВГ-адрес, данные 
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можно отправить из кэша (вместо того чтобы заставлять сервер выполнять 
работу). 


Шпаргалка 

Хеши хорошо подходят для решения следующих задач: 
О моделирование отношений между объектами; 

О устранение дубликатов; 


О кэширование/запоминание данных вместо выполнения работы на сер- 
вере. 


Коллизии 


Как я уже сказал, в большинстве языков существуют свои хеш-таблицы. 
Вам не нужно знать, как написать собственную реализацию, поэтому я не 
буду надолго останавливаться на внутреннем строении хеш-таблиц. Но 
быстродействие-то важно всегда! Чтобы понять быстродействие хеш- 
таблиц, необходимо сначала понять, что такое коллизии. В следующих двух 
разделах рассматриваются коллизии и быстродействие хеш-таблиц. 


Прежде всего, я немножко приукрасил действительность. Яс казал, что хеш- 
функция всегда отображает разные ключи на разные позиции в массиве. 


молоко >. 
АПЕЛЬСИНЫ бы. 2 
АВОКАДО ХЕШ- 


ФУНКЦИЯ 
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На самом деле написать такую хеш-функцию почти невозможно. Рассмо- 
трим простой пример: допустим, массив состоит всего из 33 ячеек. 


0123456189101 12 13 14 15 16 13 16 1920 21 22 253 24 25 26 2428 29 30 м 32 


И хеш-функция очень простая: элемент массива просто назначается по 
алфавитному признаку. 


клю- 
КЛЮ- чина 
ЧИ НА Букву клю- КАЮ- 
БУКВУ „Бъ чи НА ЧИ НА 
БУКВУ 
е КЛЮЧИ НА Букет Б 
К / БУКВУ «6». наке 
0103+ч5638910 1 12 15 14 15 16 17 18 1920 21 22 23 24 25 26 23 28 23 30 51 32 
и Может быть, вы уже поняли суть проблемы. Вы 
| хотите поместить цену апельсинов в хеш. Для 
АПЕЛЬСИНЫ 2 этого выделяется первая ячейка. 


После апельсинов в хеш заносится цена бананов. Для бананов выделяется 
вторая ячейка. 


АПЕЛЬСИНЫ 2 < БАНАНЫ 


Пока все прекрасно! Но теперь в хеш нужно включить цену авокадо. И для 
авокадо снова выделяется первая ячейка. 


АПЕЛЬСИНЫ? 2 ^. БАНАНЫ 
АВОКАДО? 
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О нет! Элемент уже занят апельсинами! Что же делать? Такая ситуация 
называется коллизией: двум ключам назначается один элемент массива. 
Возникает проблема: если сохранить в этом элементе цену авокадо, то она 
запишется на место цены апельсинов. И когда кто-нибудь спросит, сколько 
стоят апельсины, вы вместо этого сообщите цену авокадо! Коллизии — не- 
приятная штука, и вам придется как-то разбираться с ними. Существует 
много разных стратегий обработки коллизий. Простейшая из них выглядит 
так: если несколько ключей отображаются на один элемент, в этом элементе 
создается связанный список. 


Бера 


ЦЕНА 
БАНАНОВ 


В этом примере и «апельсины», и «авокадо» отображаются на один элемент 
массива, поэтому в элементе создается связанный список. Если вам потре- 
буется узнать цену бананов, эта операция по-прежнему выполнится быстро. 
Если потребуется узнать цену апельсинов, работа пойдет чуть медленнее. 
Вам придется провести поиск по связанному списку, чтобы найти в нем 
«апельсины». Если связанный список мал, это не так страшно — поиск 
будет ограничен тремя или четырьмя элементами. Но предположим, что 
вы работаете в специализированной лавке, в которой продаются только 
продукты на букву «а». 


асаа гаа | 


ЬСЕ ЭТИ ЭЛЕМЕНТЫ 
НЕ ИСПОЛЬЗУЮТСЯ 
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Одну минуту! Вся хеш-таблица полностью пуста, кроме одной ячейки. 
И эта ячейка содержит огромный связанный список! Каждый элемент этой 
хеш-таблицы хранится в связанном списке. Ситуация ничуть не лучше той, 
когда все данные сразу хранятся в связанном списке. Работа с данными 
замедляется. 


Из этого примера следуют два важных урока: 


О выбор хеш-функции действительно важен. Хеш-функция, отображаю- 
щая все ключи на один элемент массива, никуда не годится. В идеале 
хеш-функция должна распределять ключи равномерно по всему хешу; 


О если связанные списки становятся слишком длинными, работа с хеш- 
таблицей сильно замедляется. Но они не станут слишком длинными при 
использовании хорошей хеш-функции! 


Хеш-функции играют важную роль. Хорошая хеш-функция создает мини- 
мальное число коллизий. Как же выбрать хорошую хеш-функцию? Об этом 
в следующем разделе! 


Быстродействие 


Глава началась с примера магазинчика. Вы хотели построить механизм, ко- 
торый мгновенно выдает цены на продукты. Что ж, хеш-таблицы работают 
очень быстро. 


СРЕДНИЙ ХУПШИЙ 
СЛУЧАЙ _ СЛУЧАЙ 


БЫСТРОДЕЙСТВИЕ 
ХЕШ-ТАБЛИЦ 


В среднем хеш-таблицы выполняют любые операции за время О(1). Время 
О(1) называется постоянным. Ранее примеры постоянного времени вам еще 
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не встречались. Оно не означает, что операции выполняются мгновенно, 
просто время остается постоянным независимо от размера хеш-таблицы. 
Например, вы знаете, что простой поиск выполняется за линейное время. 


еу] 


ЛИНЕЙНОЕ ВРЕМЯ 
(ПРОСТОЙ ПОИСК) 


Бинарный поиск работает быстрее — за логарифмическое время: 


Ооа) 


ЛОГАРИФМИЧЕСКОЕ ВРЕМЯ 
(БИНАРНЫЙ ПОИСК) 


Поиск данных в хеш-таблице выполняется за постоянное время. 


ос) 
ПОСТОЯННОЕ ВРЕМЯ 
(ХЕШ-ТАБЛИЦЫ) 


Видите горизонтальную линию? Она означает, что при любом размере 
хеш-таблицы — 1 элемент или 1 миллиард элементов — выборка данных 
займет одинаковое время. На самом деле вы уже сталкивались с постоян- 
ным временем: получение элемента из массива выполняется за постоянное 
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время. От размера массива оно не зависит. В среднем случае хеш-таблицы 
работают действительно быстро. 


В худшем случае все операции с хеш-таблицей выполняются за время О(п) 
(линейное время), а это очень медленно. Сравним хеш-таблицы с массива- 
мии списками. 


ХЕЦ- ХЕЦ- 

ТАБЛИЦЫ ТАБЛИЦЫ свя- 
(СРЕПНИЙ (ХУО@ШИЙ МАС- ЗАННЫЕ 
СЛУЧАЙ) СЛУЧАЙ) СИВЫ СПИСКИ 


Взгляните на средний случай для хеш-таблиц. При поиске хеш-таблицы 
не уступают в скорости массивам (получение значения по индексу). А при 
вставке и удалении они так же быстры, как и связанные списки. Получается, 
что они взяли лучшее от обеих структур! Но в худшем случае хеш-таблицы 
медленно выполняют все эти операции, поэтому очень важно избегать 
худшего случая быстродействия при работе с хеш-таблицами. А для этого 
следует избегать коллизий. Для предотвращения коллизий необходимы: 


о низкий коэффициент заполнения; 


о хорошая хеш-функция. 


ПРИМЕЧАНИЕ 


Материал следующего раздела не является обязательным. Речь пойдет о том, 
как реализовать хеш-таблицу, но вам никогда не придется делать это само- 
стоятельно. Какой бы язык программирования вы ни выбрали, в нем найдет- 
ся готовая реализация хеш-таблиц. Вы можете воспользоваться встроенной 
реализацией хеш-таблицы, не сомневаясь в том, что она имеет хорошую эф- 
фективность. А в следующем разделе мы заглянем во внутреннее устройство 
хеш-таблиц. 


122 Глава 5. Хеш-таблицы 


Коэффициент заполнения КОЛИЧЕСТВО ЭЛЕМЕНТОВ 


8 ХЕШ-ТАБЛИЦЕ 
Коэффициент заполнения хеш-таблицы вычисляет  ————— 


ся по простой формуле. а е 
Хеш-таблицы используют массив для хранения данных, поэтому для вы- 
числения коэффициента заполнения можно подсчитать количество за- 
полненных элементов в массиве. Например, в следующей хеш-таблице 
коэффициент заполнения равен ?/,, или 0,4. 


ЗАНЯТЫЕ ЭЛЕМЕНТЫ 
$ № 


ЕЈ 


КОЭФФИЦИЕНТ 
ЗАПОЛНЕНИЯ = 2/, 


Скажите, каков коэффициент заполнения этой таблицы? 


[28] 1 


КОЭФФИЦИЕНТ 
ЗАПОЛНЕНИЯ 


Если вы ответили «!/,» — все правильно. По коэффициенту заполнения 
можно оценить количество пустых ячеек в хеш-таблице. 


Предположим, в хеш-таблице нужно сохранить цены 100 товаров и хеш- 
таблица состоит из 100 элементов. В лучшем случае каждому товару будет 
выделен отдельный элемент. 


ЦЕНА АПЕЛЬ- 
СИНОВ 


+ 


МОЛОКА 
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Коэффициент заполнения этой хеш-таблицы равен 1. А если хеш-таблица 
состоит всего из 50 элементов? Тогда ее коэффициент заполнения будет 
равен 2. Выделить под каждый товар отдельный элемент ни при каких 
условиях не удастся, потому что элементов попросту не хватит! Коэффи- 
циент заполнения больше 1 означает, что количество товаров превышает 
количество элементов в массиве. 


С ростом коэффициента заполнения в хеш-таблицу приходится добавлять 
новые элементы, то есть изменять ее размер. Представим, что эта хеш- 
таблица приближается к заполнению. 


[44| 


_—— 
КОЭФФИЦИЕНТ 
ЗАПОЛНЕНИЯ = 3/, 


Хеш-таблицу необходимо расширить. Расширение начинается с создания 
нового массива большего размера. Обычно в таком случае создается массив 
вдвое большего размера. 


РЕ И 


Теперь все эти элементы необходимо заново вставить в новую хеш-таблицу 


функцией наз: 
ГТА 43 | 


КОЭФФИЦИЕНТ ЗАПОЛНЕНИЯ = °/, 


Новая таблица имеет коэффициент заполнения ?/,. Гораздо лучше! С мень- 
шим коэффициентом загрузки число коллизий уменьшается, и ваша табли- 
ца начинает работать более эффективно. Хорошее приближенное правило: 
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изменяйте размер хеш-таблицы, когда коэффициент заполнения превышает 
0,7. Но ведь на изменение размеров уходит много времени, скажете вы, 
и будете абсолютно правы! Да, изменение размеров требует значитель- 
ных затрат ресурсов, поэтому оно не должно происходить слишком часто. 
В среднем хеш-таблицы работают за время О(1) даже с изменением раз- 
меров. 


Хорошая хеш-функция 


Хорошая хеш-функция должна обеспечивать равномерное распределение 


значений в массиве. 
[2] 16144 [#842] 


Плохая хеш-функция создает скопления и порождает множество коллизий. 


Какую хеш-функцию считать хорошей? К счастью, вам об этом никогда не 
придется беспокоиться — пусть об этом беспокоятся пожилые бородатые 
умники, сидящие в полутемных комнатах. Если вам интересна эта тема, 
поищите информацию об алгоритме ЗНА (короткое описание приведено 
в последней главе). Вы можете использовать этот алгоритм в своей хеш- 


функции. 
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Упражнения 


Очень важно, чтобы хеш-функции обеспечивали хорошее распределение. 
Они должны распределять значения как можно шире. Худший случай — 
хеш-функция, которая отображает все значения на одну позицию в хеш- 
таблице. 


Предположим, имеются четыре хеш-функции, которые получают строки: 
1. Первая функция возвращает «1» для любого входного значения. 
2. Вторая функция возвращает длину строки в качестве индекса. 


3. Третья функция возвращает первый символ строки в качестве индекса. 
Таким образом, все строки, начинающиеся с «а», хешируются в одну 
позицию, все строки, начинающиеся с «Б» — в другую ит. д. 


4. Четвертая функция ставит в соответствие каждой букве простое число: 
а=2,Б=3, с =5, 4 =7,е= 11 ит. д. Для строки хеш-функцией становит- 
ся остаток от деления суммы всех значений на размер хеша. Например, 
если размер хеша равен 10, то для строки «Бад» будет вычислен индекс 
3+2+17%10 = 22%10 = 2, 


В каком из этих примеров хеш-функции будут обеспечивать хорошее 
распределение? Считайте, что хеш-таблица содержит 10 элементов. 


5.5 Телефонная книга, в которой ключами являются имена, а значения- 
ми – номера телефонов. Задан следующий список имен: Еѕ(ћег, Веп, 
Вор, "ап. 


5.6 Связь размера батарейки с напряжением. Размеры батареек: А, АА, 
ААА, АААА. 


5.7 Связь названий книг с именами авторов. Названия книг: «Маиѕ», «Еип 
Ноте», «Маёсһтпеп». 
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Шпаргалка 


Вам почти никогда не придется реализовать хеш-таблицу самостоятельно. 
Язык программирования, который вы используете, должен предоставить 
необходимую реализацию. Вы можете пользоваться хеш-таблицами Ру(ћоп, 
и при этом вам будет обеспечена производительность среднего случая: по- 
стоянное время. 


Хеш-таблицы чрезвычайно полезны, потому что они обеспечивают высокую 
скорость операций и позволяют по-разному моделировать данные. Воз- 
можно, вскоре выяснится, что вы постоянно используете их в своей работе. 


о 


о 


Хеш-таблица создается объединением хеш-функции с массивом. 


Коллизии нежелательны. Хеш-функция должна свести количество кол- 
лизий к минимуму. 


Хеш-таблицы обеспечивают очень быстрое выполнение поиска, вставки 
и удаления. 


Хеш-таблицы хорошо ПОДХОДЯТ ДЛЯ моделирования отношений между 
объектами. 


Как только коэффициент заполнения превышает 0,7, пора изменять раз- 
мер хеш-таблицы. 


Хеш-таблицы используются для кэширования данных (например, на 
веб-серверах). 


Хеш-таблицы хорошо подходят для обнаружения дубликатов. 


8 АПРЕЛЯ 13 МАРТА 


10 ОКТЯБРЯ 


15 СЕНТЯБРЯ 


Поиск в ширину 


хзоохзохо ое оо ооо ооо оо оо чото 


В этой главе 


/ Вы научитесь моделировать сети при помощи новой 
абстрактной структуры данных — графов. 


~ Вы освоите поиск в ширину — алгоритм, который при- 
меняется к графам для получения ответов на вопросы 
вида «Какой кратчайший путь ведет к Х?» 


/ Вы узнаете, чем направленные графы отличаются от 
ненаправленных. 


/ Вы освоите топологическую сортировку — другой алго- 
ритм сортировки, раскрывающий связи между узлами. 


ооо ооо ооо чоо ооо во юз ооо оо оо оо ово 


Эта глава посвящена графам. Сначала вы узнаете, что такое граф. Затем 
я покажу первый алгоритм, работающий с графами. Он называется поиском 
в ширину (ВЕЅ, Вгеааєћ-Еігѕ ЗеагсВ). 


Поиск в ширину позволяет найти кратчайшее расстояние между двумя объ- 
ектами. Однако сам термин «кратчайшее расстояние» может иметь много 
разных значений! Например, с помощью поиска в ширину можно: 


о написать программу для игры в шашки, которая вычисляет кратчайший 
путь к победе; 
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О реализовать проверку правописания (минимальное количество измене- 
ний, преобразующих ошибочно написанное слово в правильное, напри- 


мер АЛГОРИФМ -> АЛГОРИТМ — одно изменение); 
О найти ближайшего к вам врача. 


Одни из самых полезных алгоритмов, известных мне, работают С графами. 
Внимательно прочитайте несколько следующих глав — этот материал не- 


однократно пригодится вам в работе. 


Знакомство с графами 


Предположим, вы находитесь в Сан-Франциско и хотите добраться из 
Твин-Пикс к мосту Золотые Ворота. Вы намереваетесь доехать на автобусе 
с минимальным количеством пересадок. Возможные варианты: 


АВТОБУС № 44 


АВТОБУС № з8л 
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Какой алгоритм вы бы использовали для поиска пути с наименьшим коли- 
чеством шагов? 


Можно ли сделать это за один шаг? На следующем рисунке выделены все 
места, в которые можно добраться за один шаг. 


мост 
ЗОЛОТЫЕ 
БОРОТА 


Мост на этой схеме не выделен; до него невозможно добраться за один шаг. 
А можно ли добраться до него за два шага? 


ЗОЛОТЫЕ 
ЬОРОТА 


И снова мост не выделен, а значит, до него невозможно добраться за два 
шага. Как насчет трех шагов? 
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Ага! На этот раз мост Золотые Ворота выделен. Следовательно, чтобы до- 
браться из Твин-Пикс к мосту по этому маршруту, необходимо сделать три 
шага. 


ЗОЛОТЫЕ 
ЬОРОТА 


Есть и другие маршруты, которые приведут вас к мосту, но они длиннее 
(четыре шага). Алгоритм обнаружил, что кратчайший путь к мосту состоит 
из трех шагов. Задача такого типа называется задачей поиска кратчайшего 
пути. Часто требуется найти некий кратчайший путь: путь к дому вашего 
друга, путь к победе в шахматной партии (за наименьшее количество ходов) 
ит. д. Алгоритм для решения задачи поиска кратчайшего пути называется 
поиском в ширину. 


Чтобы найти кратчайший путь из Твин-Пикс к мосту Золотые Ворота, нам 
пришлось выполнить два шага: 


1. Смоделировать задачу в виде графа. 
2. Решить задачу методом поиска в ширину. 


В следующем разделе я расскажу, что такое графы. Затем будет рассмотрен 
более подробно поиск в ширину. 
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Что такое граф? 


Граф моделирует набор связей. Пред- 
ставьте, что вы с друзьями играете в по- 
кер и хотите смоделировать, кто кому 
сейчас должен. Например, условие 
«Алекс должен Раме» можно смодели- 
ровать так: 


АЛЕКС 


А полный граф может выглядеть так: 


Алекс должен Раме, Том должен Адиту и т. д. Каждый граф состоит из узлов 
и ребер. 


Граф задолженностей 
при игре в покер 


132 Глава 6. Поиск в ширину 


Вот и все! Графы состоят из узлов и ребер. Узел может быть напрямую со- 
единен с несколькими другими узлами. Эти узлы называются соседями. На 
этом графе Рама является соседом Алекса. С другой стороны, Адит соседом 
Алекса не является, потому что они не соединены напрямую. При этом Адит 
является соседом Рамы и Тома. 


Графы используются для моделирования связей между разными объектами. 
А теперь посмотрим, как работает поиск в ширину. 


Поиск в ширину 


В главе 1 уже рассматривался пример алгоритма поиска: бинарный по- 
иск. Поиск в ширину также относится к категории алгоритмов поиска, 
но этот алгоритм работает С графами. Он помогает ответить на вопросы 
двух типов: 


о тип 1: существует ли путь от узла А к узлу В? 
О тип 2: как выглядит кратчайший путь от узла А к узлу В? 


Вы уже видели пример поиска в ширину, когда мы просчитывали кратчай- 
ший путь из Твин-Пикс к мосту Золотые Ворота. Это был вопрос типа 2: 
как выглядит кратчайший путь? Теперь разберем работу алгоритма более 
подробно с вопросом типа 1: существует ли путь? 


0 0а 


те 


3“ 


Представьте, что вы выращиваете манго. Вы ищете продавца, который 
будет продавать ваши замечательные манго. А может, продавец найдется 
среди ваших контактов на ЕасефооК? Для начала стоит поискать среди 
друзей. 
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АЛИСА 


Поиск происходит вполне тривиально. 
Сначала нужно построить список друзей для поиска. 


Теперь нужно обратиться к каждому человеку в списке 
и проверить, продает ли этот человек манго. 


я“ ЗАВЕРШИТЬ 
АЛИСА ПРОПАЕТ 


— манго? ие 


ДА: ЗАВЕРШИТЬ 
» 


з у р 
БОБ ПРОДАЕТ 
аи МАНГО? У иет 
О КЛЭР 
9 
ДА: ЗАВЕРШИТЬ 
уст» КЛЭР ПРОДАЕТ >” 


Гезеәь | —? манго? . 
` ВЕТ: НИКТО ИЗ ДРУЗЕЙ 


НЕ ПРОПАЕТ МАНГО 
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Предположим, ни один из ваших друзей не продает манго. Теперь поиск 
продолжается среди друзей ваших друзей. 


7. 


ДЖОННИ 


Каждый раз, когда вы проверяете кого-то из списка, вы добавляете В СПИСОК 


всех его друзей. 
ДА: ЗАВЕРШИТЬ оч Зу 
7 С БОБ 
_ АЛИСА ПРОДАЕТ — НЕТ: ДОБАВИТЬ > 10, КЛЭР 


МАНТО? ВСЕХ ДРУЗЕЙ СВ ЛЕТТЙ - 
АЛИСЫ В СПИСОК АДА 
ПОИСКА Ка 279 


ЛЕГГИ ДОБАВ- 
ЛЕНА В СПИСОК 


В таком случае поиск ведется не только среди друзей, но и среди друзей 
друзей тоже. Напомним: нужно найти в сети хотя бы одного продавца ман- 
го. Если Алиса не продает манго, то в список добавляются ее друзья. Это 
означает, что со временем вы проверите всех ее друзей, а потом их друзей 
и т. д. С этим алгоритмом поиск рано или поздно пройдет по всей сети, пока 
вы все-таки не наткнетесь на продавца манго. Такой алгоритм и называется 
поиском в ширину. 
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Поиск кратчайшего пути 


На всякий случай напомню два вопроса, на которые может ответить алго- 
ритм поиска в ширину: 


О тип 1: существует ли путь от узла А к узлу В? (Есть ли продавец манго 
в вашей сети?) 


О тип 2: как выглядит кратчайший путь от узла А к узлу В? (Кто из про- 
давцов манго находится ближе всего к вам?) 


Вы уже знаете, как ответить на вопрос 1; теперь попробуем ответить на 
вопрос 2. Удастся ли вам найти ближайшего продавца манго? Будем счи- 
тать, что ваши друзья — это связи первого уровня, а друзья друзей — связи 
второго уровня. 


МЯ 


ЕТ 


Связи первого уровня предпочтительнее связей второго уровня, связи 
второго уровня предпочтительнее связей третьего уровня и т. д. Отсюда 
следует, что поиск по контактам второго уровня не должен производить- 
ся, пока вы не будете полностью уверены в том, что среди связей первого 
уровня нет ни одного продавца манго. Но ведь поиск в ширину именно это 
и делает! Поиск в ширину распространяется от начальной точки. А это оз- 
начает, что связи первого уровня будут проверены до связей второго уровня. 
Контрольный вопрос: кто будет проверен первым, Клэр или Анудж? Ответ: 
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Клэр является связью первого уровня, а Анудж — связью второго уровня. 
Следовательно, Клэр будет проверена первой. 


Также можно объяснить это иначе: связи первого уровня добавляются 
в список поиска раньше связей второго уровня. 


Вы двигаетесь вниз по списку и проверяете каждого 
человека (является ли он продавцом манго). Связи 
первого уровня будут проверены до связей второго 


= 


1 УРО-] КЛЭР а, ит 

ВЕНЬ \ АЛИСА уровня, так что вы найдете продавца манго, ближай- 
АНУОЖ шего к вам. Поиск в ширину находит не только путь 

2 УРО- тя из Ав В, но и кратчайший путь. 

ВЕНЬ 


Обратите внимание: это условие выполняется только 
в том случае, если поиск осуществляется в порядке 
добавления людей. Другими словами, если Клэр была 
добавлена в список до Ануджа, то проверка Клэр должна быть выполнена 
до проверки Ануджа. А что произойдет, если вы проверите Ануджа раньше, 
чем Клэр, и оба они окажутся продавцами манго? Анудж является связью 
второго уровня, а Клэр — связью первого уровня. В резульгате будет найден 
продавец манго, не ближайший к вам в сети. Следовательно, проверять свя- 
зи нужно в порядке их добавления. Для операций такого рода существует 
специальная структура данных, которая называется очередью. 


т 


Очереди 


Очередь работает точно так же, как 
и в реальной жизни. Предполо- 
жим, вы с другом стоите в очереди 
на автобусной остановке. Если вы 
стоите ближе к началу очереди, то 
вы первым сядете в автобус. Струк- 
тура данных очереди работает ана- 
логично. Очереди чем-то похожи 
на стеки: вы не можете обращаться 
к произвольным элементам очере- 
ди. Вместо этого поддерживаются 
всего две операции: постановка 
в очередь и извлечение из очереди. 
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7 
с) АА 


ЛОСТАНОВКА В ОЧЕРЕПЬ ИЗВЛЕЧЕНИЕ ИЗ ОЧЕРЕПИ 


ЭЛЕМЕНТ П0БАВ- ЭЛЕМЕНТ ИЗВЛЕКАЕТСЯ 
ЛЯЕТСЯ В ОЧЕРЕДЬ ИЗ ОЧЕРЕПИ 


Если вы поставите в очередь два элемента, то элемент, добавленный пер- 
вым, будет извлечен из очереди раньше второго. А ведь это свойство можно 
использовать для реализации списка поиска! Люди, добавленные в список 
первыми, будут извлечены из очереди и проверены первыми. 


Очередь относится к категории структур данных ЕТЕО: Еігѕе т, Её Оце 
(«первым вошел, первым вышел»). А стек принадлежит к числу структур 
данных ЦЕО: Гаѕё Іп, Еігѕє Оц («последним пришел, первым вышел»). 


Рей 2 


НЕО НРО 
(«ПЕРВЫМ ВОШЕЛ, («ПОСЛЕПНИМ ВОШЕЛ, 
ПЕРВЫМ ВЫШЕЛ») ПЕРВЫМ ВЫШЕЛ») 


« 


Теперь, когда вы знаете, как работает очередь, можно переходить к реали- 
зации поиска в ширину! 


Упражнения 


Примените алгоритм поиска в ширину к каждому из этих графов, чтобы 


найти решение. 
КОНЕЦ 


6.1 Найдите длину кратчайшего пути от 


нач НОГ о конечного узла. 
а У НАЧАЛО 
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6.2 Найдите длину кратчайшего пути от «саб» к «Баѓ». 


> 


НАЧАЛО 


Реализация графа 


Для начала необходимо реализовать граф 
на программном уровне. Граф состоит из 
нескольких узлов. И каждый узел соединя- 
ется с соседними узлами. Как выразить от- 
ношение типа «вы —> боб»? К счастью, вам 
уже известна структура данных, способная 
выражать отношения: хеш-таблица! 


Вспомните: хеш-таблица связывает ключ 
со значением. В данном случае узел должен 
быть связан со всеми его соседями. 


БОБ 


б. 


ЪЫ 


АЛИСА 


КЛЭР 


А вот как это записывается на Руќћоп: 


вгарй = {} 
вгарһ["уои"] = ["а11се", "Боб", "с1аіге"] 
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Обратите внимание: элемент «вы» (уои) отображается на массив. Следова- 
тельно, результатом выражения ргарп["уоч" ] является массив всех ваших 


соседей. 


Граф — всего лишь набор узлов и ребер, поэтому для представления графа 
на Руфоп ничего больше не потребуется. А как насчет большего графа, на- 


пример такого? 


АЛИСА 


Код на языке Ру(ћоп выглядит так: 


вгарһ = {} 

вгарһ["уои"] = ["а11се", "Боб", "с1аіге"] 
вгарһ["Боб"] = [“апиј", "ревву"] 
Бгарһ["а1ісе"] = ["ревву"] 
ёгарН["с1а1ге"] = 
вгарһ[ "апиј"] = [] 
вгарһ["ревву"] = [1] 
Бгарһ[ "Пот" ] = [] 
вгарһ["јоппу"] = [] 


["Єћот", "јоппу"] 
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Контрольный вопрос: важен ли порядок добавления пар «ключ—зна- 
чение»? 


Важно ли, какую запись вы будете использовать, — такую: 


вгарћ["с1аіге"] ["Еһот", "јоппу" ] 


вгарһ[“апиј"] = [1 


или такую: 


вгарћ["апиј"] 


= 
Бгарһ["с1аіге"] = 


["Еһот", "јоппу" ] 


Вспомните предыдущую главу. Ответ: нет, не важно. В хеш-таблицах эле- 
менты не упорядочены, поэтому добавлять пары «ключ—значение» можно 
в любом порядке. 


У Ануджа, Пегги, Тома и Джонни соседей нет. Линии со стрелками ука- 
зывают на них, но не существует стрелок от них к другим узлам. Такой 
граф называется направленным — отношения действуют только в одну 
сторону. Итак, Анудж является соседом Боба, но Боб не является соседом 
Ануджа. В ненаправленном графе стрелок нет, и каждый из узлов являет- 
ся соседом по отношению друг к другу. Например, оба следующих графа 
эквивалентны. 


НАПРАВЛЕННЫЙ ГРАФ НЕНАПРАВЛЕННЫЙ ГРАФ 
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Реализация алгоритма 


Напомню, как работает реализация. 


1. СОЗАТЬ ОЧЕРЕПЬ 


АЛИСА КЛЭР С ИМЕНАМИ ПРОВЕРЯЕ- 
Е] люн 


8 у 2. ИЗВЛЕЧЬ ИЗ ОЧЕРЕДИ 
Лис ОЧЕРЕПНОГО ЧЕЛОВЕКА 
ес =| БОБ | КЛЭР 


-- 2 
= та 


Ар ^3. ПРОВЕРИТЬ, ЯВЛЯЕТСЯ ЛИ 
т А ЭТОТ ЧЕЛОВЕК ПРОДАВЦОМ 
р я МАНГО 
АВЕЦ Е 
МЕТ. 


4.5. ДОБАВИТЬ ВСЕХ СОСЕПЕЙ 
ЭТОГО ЧЕЛОВЕКА В ОЧЕРЕДЬ 


НУ 


5. ЦИКЛІ 


6. ЕСЛИ ОЧЕРЕДЬ ПУСТА, 
8 ВАШЕЙ СЕТИ НЕТ 
ПРОДАВЦОВ МАНГО 


Все начинается с создания очереди. В Ру оп для создания двусторонней 
очереди (дека) используется функция аедџе: 


4гот со11есііопѕ ітрог+ Яедие 
ѕеагсһ_диеце = дедие() <не Создание новой очереди 
ѕеагсһ_диеџе += вгарв["уои"] <. Все соседи добавляются в очередь поиска 
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Напомню, что выражение вгарћ[ "уои"] вернет список всех ваших соседей, 
например ["а1ісе", "Боб", "с1аіге"]. Все они добавляются в очередь по- 
иска. 


А теперь рассмотрим остальное: 


мһ1і1е зеагсН_аиеие: «........ Пока очередь не пуста... 
регѕоп = 5еагси_диеие.рор1е+*() «.....-.-. из очереди извлекается первый человек 
1+ регѕоп_іѕ ѕе11ег(регѕоп): «``: Проверяем, является ли этот человек 
продавцом манго 
ргіпї регѕоп + " 1$ а тапро ѕе11ег!" ж. Да, это продавец манго 
гефигп Тгие 
е15е: н 
ет, не является. Все друзья этого че- 
звагеп.диене += апарпрелѕоп]. жес; ловека добавляются в очередь поиска 
геигп Еа1ѕе <... Если выполнение дошло 


до этой строки, значит, 
в очереди нет продавца манго 


И последнее: нужно определить функцию рег$оп_15_5е11ег, которая со- 
общает, является ли человек продавцом манго. Например, функция может 
выглядеть так: 


е+ регѕоп_їіѕ ѕе11ег(пате) : 
гефигп пате[-1] == 'т' 


Эта функция проверяет, заканчивается ли имя на букву «т», и если за- 
канчивается, этот человек считается продавцом манго. Проверка ДОВОЛЬНО 
лупая, но для нашего примера сойдет. А теперь посмотрим, как работает 
поиск в ширину. 
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ТЕКУЩЕЕ СОСТОЯНИЕ 
ЅЕААСҢ_СОЕОЕ 


Ѕеаһдоеое = Зедре() 


- — — —  — — 


Зезс\ доеое = ауар Сечи 


ПЕРЕМЕННАЯ РЕЋЅОМ > реузом = эёағсћ. дове. рор-еРЕС) 
СОДЕРЖИТ АЦСЕ 


--- 
——- -- 


т Е ЗК й 
“МСЕ Ш к “№” 5 № резот —1$_ еШеғ (ревом): 


ЕТСЯ А 
ае ооа 
ом мато ев 


5е зис\ „де + = Зум Срехзом) 


— —-—-- 
— ——— 


уме еам дусџе : 


— 
— — — — —–—– – — = ә 


реєзом = зеаес\-дуужос. ро КО 


„= -—- А --—--= 


ІЁ резом. 15. зе (ревом): 


— — — 


е(5е: 
5 еағоћ.дуоеое + = ор Сретзои] 1505 п Еттен) Ч) 


„ии. д. ... 


И так далее. Алгоритм продолжает работать до тех пор, пока: 
О не будет найден продавец манго, 
или 


О очередь не опустеет (в этом случае продавца манго нет). 
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У Алисы и Боба есть один общий друг: Пегги. Следовательно, Пегги будет 
добавлена в очередь дважды: при добавлении друзей Алисы и при добав- 
лении друзей Боба. В результате Пегги появится в очереди поиска в двух 
экземплярах. 


кзэ етот 


У ый 


ОЙ, ЛЕГГИ ВСТРЕЧАЕТСЯ 
В ОЧЕРЕПИ ПОИСКА 


ПЬАЖДЫ! 


Но проверить, является ли Пегги продавцом манго, достаточно всего один 
раз. Проверяя ее дважды, вы выполняете лишнюю, ненужную работу. Сле- 
довательно, после проверки человека нужно пометить как проверенного, 
чтобы не проверять его снова. 


Если этого не сделать, может возникнуть бесконечный ЦИКЛ. Предположи М, 


граф выглядит так: 


В начале очередь поиска содержит всех ваших соседей. 


ты 
ЛЕГГИ 


Теперь вы проверяете Пегги. Она не является продавцом манго, поэтому 
все ее соседи добавляются в очередь поиска. 
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ВЫ 


А 


Вы проверяете себя. Вы не являетесь продавцом манго, поэтому все ваши 
соседи добавляются в очередь поиска. 


РР чан 
ЛЕГГИ 


И так далее. Возникает бесконечный цикл, потому что очередь поиска будет 
поочередно переходить от вас к Пегги. 


ЕВЕ 


о 
Прежде чем проверять человека, следует убедиться в том, что он не 


был проверен ранее. Для этого мы будем вести список уже проверенных 
людей. 
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А вот окончательная версия кода поиска в ширину, в которой учтено это 
обстоятельство: 


4е+ ѕеагсһ(пате) : 
ѕеагсһ_диеие = дедие() 
ѕеагсһ_аиеие += вгарһћ[ пате] 
ѕеагсһеа = [] «неее 
мһі1е ѕеагсһ диеие: 
регѕоп = ѕеагсһ_диеие.рор1е+#+() 
1+ по регѕоп іп ѕеагсһеа: <... 
1+ регѕоп_15_ѕе11ег(регѕоп): 
ргіпё регзоп + " 1$ а мапро ѕе11ег!" 
гефигп Тгие 
е15е: Человек помечается как 
ѕеагсһ_диеие += ргарћ[регѕоп] уже проверенный 
ѕеагсһеа.аррепа(регѕоп) <... 
гефигп Ра15е 


Этот массив используется для отслеживания 
уже проверенных людей 


Человек проверяется только в том случае, 
если он не проверялся ранее 


ѕеагсһ("уои") 


Попробуйте выполнить этот код самостоятельно. Замените функцию 
регѕоп_1ѕ_ѕе11ег чем-то более содержательным и посмотрите, выведет ли 
она то, что вы ожидали. 


Время выполнения 


Если поиск продавца манго был выполнен по всей сети, значит, вы прошли 
по каждому ребру (напомню: ребром называется соединительная линия или 
линия со стрелкой, ведущая от одного человека к другому). Таким образом, 
время выполнения составляет как минимум О(количество ребер). 


Также в программе должна храниться очередь поиска. Добавление одно- 
го человека в очередь выполняется за постоянное время: О(1). Выпол- 
нение операции для каждого человека потребует суммарного времени 
О(количество людей). Поиск в ширину выполняется за время О(количество 
людей + количество ребер), что обычно записывается в форме О(У+Е) (У— 
количество вершин, Ё — количество ребер). 
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Упражнения 


Перед вами небольшой граф моего утреннего распорядка. 


ЛОЗАВТРА- 
КАТЬ 


Из графа видно, что я завтракаю только после того, как почищу зубы. Таким 
образом, узел «Позавтракать» зависит от узла «Почистить зубы». 


С другой стороны, душ не зависит от чистки зубов, потому что я могу сна- 
чала принять душ, а потом почистить зубы. На основании графа можно 
сформулировать порядок, в котором я действую утром: 


1. Проснуться. 

2. Принять душ. 
3. Почистить зубы. 
4. Позавтракать. 


Следует заметить, что действие «Принять душ» может перемещаться в спи- 
ске, поэтому следующий список тоже действителен: 


1. Проснуться. 
2. Почистить зубы. 
3. Принять душ. 


4. Позавтракать. 
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6.3 Для каждого из следующих трех списков укажите, действителен он 
или недействителен. 


А Б в 


| 
1. ПРОСНУТЬСЯ 1. ПРОСНУТЬСЯ 1. ПРИНЯТЬ ПУЩ 
2. ПРИНЯТЬ ПУШ 2. ПОЧИСТИТЬ ЗУБЫ 2. ПРОСНУТЬСЯ 
3. ПОЗАВТРАКАТЬ 5. ПОЗАВТРАКАТЬ 5. ПОЧИСТИТЬ ЗУБЫ 
4. ПОЧИСТИТЬ ЗУБЫ 4. ПРИНЯТЬ ПУШ 4. ПОЗАВТРАКАТЬ 


6.4 Немного увеличим исходный граф. Постройте действительный список 


для этого графа. 
ОДЕТЬСЯ 


СТИТЬ 
ЗУБЫ 


УПАКОВАТЬ 
ОБЕ. 


Можно сказать, что этот список в некотором смысле отсортирован. Если 
задача А зависит от задачи В, то задача А находится в более поздней по- 
зиции списка. Такая сортировка называется топологической; фактически 
она предоставляет способ построения упорядоченного списка на основе 
графа. Предположим, вы планируете свадьбу и у вас составлен большой 
граф с множеством задач, но вы не знаете, с чего начать. Проведите топо- 
логическую сортировку графа — и получите список задач, которые можно 
выполнять одну за другой. 
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Допустим, имеется генеалогическое древо. 


РОПИТЕЛИ 


© Сл БАБУШКИ 
‹ И ПЕ ПУШКИ 


Генеалогическое древо — тоже граф, потому что в нем есть узлы (люди) 
и ребра. Ребра указывают на родителей человека. Естественно, все ребра 
направлены вниз — в генеалогическом дереве ребро, указывающее вверх, 
не имеет смысла. Ведь ваш отец никак не может быть дедушкой вашего 
дедушки! 


РОПИТЕЛИ 


у (69 25 БАБУШКИ 
ь И ПЕПУЩКИ 


Такая особая разновидность графа, в которой нет ребер, указывающих в об- 
ратном направлении, называется деревом. 
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6.5 Какие из следующих графов также являются деревьями? 


А. Б, С. 


Шпаргалка 


О 


О 


Поиск в ширину позволяет определить, существует ли путь из А в В. 
Если путь существует, то поиск в ширину находит кратчайший путь. 


Если в вашей задаче требуется найти «кратчайшее Х», попробуйте смо- 
делировать свою задачу графом и воспользуйтесь поиском в ширину 
для ее решения. 


В направленном графе есть стрелки, а отношения действуют в направле- 
нии стрелки (Рама -> Адит означает «Рама должен Адиту»). 


В ненаправленных графах стрелок нет, а отношение идет в обе стороны 
(Росс — Рэйчел означает «Росс встречается с Рэйчел, а Рэйчел встреча- 
ется с Россом».) 


Очереди относятся к категории ЕІЕО («первым вошел, первым вышел»). 
Стек относится к категории ГЛЕО («последним пришел, первым вышел»). 


Людей следует проверять в порядке их 
добавления в список поиска, поэтому 
список поиска должен быть оформлен 
в виде очереди, иначе найденный путь 
не будет кратчайшим. 


Позаботьтесь о том, чтобы уже прове- 
ренный человек не проверялся заново, 
иначе может возникнуть бесконечный 
цикл. 


Алгоритм Дейкстры 


хоз ох ооо ооо оо ось ооо ооо ооо оо е о 


В этой главе 


/ Мы продолжим изучение графов и познакомимся 
со взвешенными графами, в которых некоторым ребрам 
назначаются большие или меньшие веса. 


м Вы изучите алгоритм Дейкстры, который позволяет 
получить ответ на вопрос «Как выглядит кратчайший 
путь к Х?» для взвешенных графов. 


м Вы узнаете о циклах в графах, для которых алгоритм 
Дейкстры не работает. 


ооо ох ох ооо ооо ох ово ооо ооо чоо ооо ооо ооо оо ооо човохьо 


В предыдущей главе вы узнали, как найти путь из точки А в точку В. 


Найденный путь не обязательно окажется самым быстрым. Этот путь 
считается кратчайшим, потому что он состоит из наименьшего количества 
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сегментов (три сегмента). Но предположим, с каждым сегментом связыва- 
ется продолжительность перемещения. И тогда выясняется, что существует 
и более быстрый путь. 


В предыдущей главе рассматривался поиск в ширину. Этот алгоритм нахо- 
дит путь с минимальным количеством сегментов (граф на первом рисунке). 
А если вы захотите найти самый быстрый путь (второй граф)? Быстрее 
всего это делается при помощи другого алгоритма, который называется 
алгоритмом Дейкстры. 


Работа с алгоритмом Дейкстры 


Посмотрим, как этот алгоритм работает с графом. 


м 
«№: 
НАЧАЛО 5 С а 


Каждому ребру назначается время перемещения в минутах. Алгоритм 
Дейкстры используется для поиска пути от начальной точки к конечной 
за кратчайшее возможное время. 


Применив к этому графу поиск в ширину, вы получите следующий крат- 
чайший путь. 
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Этот путь занимает 7 минут. А может, существует путь, который займет 
меньше времени? Алгоритм Дейкстры состоит из четырех шагов: 


1. Найти узел с наименьшей стоимостью (то есть узел, до которого можно 
добраться за минимальное время). 


2. Обновить стоимости соседей этого узла (вскоре я объясню, что имеется 
в виду). 


З. Повторять, пока это не будет сделано для всех узлов графа. 
4. Вычислить итоговый путь. 


Шаг 1: найти узел с наименьшей стоимостью. Вы стоите в самом начале 
и думаете, куда направиться: к узлу А или к узлу В. Сколько времени по- 
надобится, чтобы добраться до каждого из этих узлов? 


До узла А вы будете добираться 6 минут, а до узла В — 2 минуты. Что каса- 
ется остальных узлов, мы о них пока ничего не знаем. 


Так как время достижения конечного узла остается не- 
известным, мы считаем, что оно бесконечно (вскоре вы 
увидите почему.) Узел В — ближайший... он находится 
всего в 2 минутах. 
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Шаг 2: вычислить, сколько времени потребуется для того, чтобы добраться 
до всех соседей В при переходе по ребру из В. 


8 
УЗЕЛ БРЕМЯ тобы д0- „> 5ч, 
БРАТЬСЯ 00 ‹ ЖА. 
УЗЛА А, ТЕПЕРЬ р. 
ТРЕБУЕТСЯ < =) 
ВСЕГО 5 МИН ^^ $ бы 


Св) 


Ого, да мы обнаружили более короткий путь к узлу А! Раньше для перехода 
к нему требовалось 6 минут. 


А если идти через узел В, то существует путь, который занимает всего 
5 минут! 


Если вы нашли более короткий путь для соседа В, обновите его стоимость. 
В данном случае мы нашли: 


о Более короткий путь к А (сокращение с 6 минут до 5 минут). 


о Более короткий путь к конечному узлу (сокращение от бесконечности 
до 7 минут). 
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Шаг 3: повторяем! 


Снова шаг 1: находим узел, для перехода к которому требуется наименьшее 
время. С узлом В работа закончена, поэтому наименьшую оценку времени 
имеет узел А. 


Путь до конечного узла теперь занимает всего 6 минут! 


Алгоритм Дейкстры выполнен для каждого узла (выполнять его для конеч- 
ного узла не нужно). К этому моменту вам известно следующее: 


о Чтобы добраться до узла В, нужно 2 минуты. 
о Чтобы добраться до узла А, нужно 5 минут. 


о Чтобы добраться до конечного узла, нужно 6 минут. 


УЗЕЛ 
|А 
Св |а 
конц [6 
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Последний шаг — вычисление итогового пути — откладывается до следую- 
щего раздела. А пока я просто покажу, как выглядит ИТОГОВЫЙ путь. 


НАЧАЛО 


Алгоритм поиска в ширину не найдет этот путь как кратчайший, потому 
что он состоит из трех сегментов, а от начального узла до конечного можно 
добраться всего за два сегмента. 


КРАТЧАЙШИЙ ПУТЬ 
С ПОИСКОМ 6 ШИРИНУ 


В предыдущей главе мы использовали поиск в ширину для нахождения 
кратчайшего пути между двумя точками. Тогда под «кратчайшим путем» 
понимался путь с минимальным количеством сегментов. С другой стороны, 
в алгоритме Дейкстры каждому сегменту присваивается число (вес), а ал- 
горитм Дейкстры находит путь с наименьшим суммарным весом. 


ЬОРОТА 


ЬЗВЕШЕННЫЙ ГРАФ НЕВЗВЕШЕННЫЙ ГРАФ 
(ПОИСК 8 ШИРИНУ) 
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На всякий случай повторим: алгоритм Дейкстры состоит из четырех шагов: 


1. Найти узел с наименьшей стоимостью (то есть узел, до которого можно 
добраться за минимальное время). 


2. Проверить, существует ли более дешевый путь к соседям этого узла, 
и если существует, обновить их стоимости. 


3. Повторять, пока это не будет сделано для всех узлов графа. 


4. Вычислить итоговый путь (об этом в следующем разделе!). 


Терминология 


Я хочу привести еще несколько примеров применения алгоритма Дейкстры. 
Но сначала стоит немного разобраться с терминологией. 


Когда вы работаете с алгоритмом Дейкстры, с каждым ребром графа свя- 


зывается число, называемое весом. 


ВЕСА 


ү 


Граф с весами называется взвешенным графом. Граф без весов называется 
невзвешенным графом. 


ЪЗВЕШЕННЫЙ ГРАФ НЕВЗВЕШЕННЫЙ ГРАФ 
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Для вычисления кратчайшего пути в невзвешенном графе используется 
поиск в ширину. Кратчайшие пути во взвешенном графе вычисляются по 
алгоритму Дейкстры. В графах также могут присутствовать циклы: 


ЦИКЛІ ПУТЬ, 

НАЧИНАЮЩИЙСЯ © 
с узл^@, 

МОЖЕТ ВЕРНУТЬ- 

СЯ К УЗЛУ (@) © 


Это означает, что вы можете начать с некоторого узла, перемещаться по 
графу, а потом снова оказаться в том же узле. Предположим, вы ищете 
кратчайший путь в графе, содержащем цикл. 


НАЧАЛО КОНЕЦ 


Есть ли смысл в перемещении по циклу? Что ж, вы можете использовать 
путь без прохождения цикла: 


А можете пройти по циклу: 


ОБЩИЙ 
ВЕС: 


13 
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Вы в любом случае оказываетесь в узле А, но цикл добавляет лишний вес. 
Вы даже можете обойти цикл дважды, если вдруг захотите. 


Но каждый раз, когда вы проходите по циклу, вы только увеличиваете сум- 
марный вес на 8. Следовательно, путь с обходом цикла никогда не будет 
кратчайшим. 


Наконец, вы еще не забыли наше обсуждение направленных и ненаправ- 
ленных графов из главы 6? 


НАПРАВЛЕННЫЙ НЕНАПРАВЛЕННЫЙ 
ГРАФ ГРАФ 


Само понятие ненаправленного графа означает, что каждый из двух узлов 
фактически ведет к другому узлу. А это цикл! 


ЦИКЛ! 


—®- в 


В ненаправленном графе каждое новое ребро добавляет еще один цикл. Ал- 
горитм Дейкстры работает только с направленными ациклическими графами, 
которые нередко обозначаются сокращением РАС (Рігесѓеа Асусйс Старћ). 
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История одного обмена 


Но довольно терминологии, пора рассмотреть кон- 
кретный пример! Это Рама. Он хочет выменять свою 
книгу по музыке на пианино. 


«Я тебе дам за книгу вот этот постер, — говорит 
Алекс. — Это моя любимая группа Оезгоуег. Или 
могу дать за книгу редкую пластинку Рика Эстли 
и еще $5». — «О, я слышала, что на этой пластинке 
есть отличные песни, — говорит Эми. — Готова отдать 
за постер или пластинку мою гитару или ударную установку». 


«Всю жизнь мечтал играть на гитаре, — восклицает 
Бетховен. — Слушай, я отдам тебе свое пианино за 
любую из вещей Эми». 


Прекрасно! Рама с небольшими дополнительными 
тратами может поменять свою книгу на насто- 
ящее пианино. Теперь остается понять, как ему 

потратить наименьшую сумму на цепочке обменов. Изо- 
бразим полученные им предложения в виде графа: 


Узлы графа — это предметы, на которые может поменяться Рама. Веса 
ребер представляют сумму доплаты за обмен. Таким образом, Рама может 
поменять постер на гитару за $30 или же поменять пластинку на гитару 
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за $15. Как Раме вычислить путь от книги до пианино, при котором он 
потратит наименьшую сумму? На помощь приходит алгоритм Дейкстры! 
Вспомните, что алгоритм Дейкстры состоит из четырех шагов. В этом при- 
мере мы выполним все четыре шага, а в конце будет вычислен итоговый 
путь. 


УЗЕЛ СТОИМОСТЬ 


пост» Г | 
вы 
пано | оо] 


МЫ ЕЩЕ 

НЕ ОХОПИЛИ 
10 ЭТИХ УЗЛОВ 
ОТ НАЧАЛЬНОГО 


Прежде чем начинать, необходимо немного подготовиться. Постройте та- 
блицу со стоимостями всех узлов. (Стоимость узла определяет затраты на 
его достижение.) 


Таблица будет обновляться по мере работы алгоритма. Для вычисления 
итогового пути в таблицу также необходимо добавить столбец «родитель». 


Вскоре я покажу, как работает этот столбец. А пока просто запустим алго- 
ритм. 


Шаг 1: найти узел с наименьшей стоимостью. В данном случае самый де- 
шевый вариант обмена с доплатой $0 — это постер. Возможно ли получить 
постер с меньшими затратами? Это очень важный момент, хорошенько по- 
думайте над ним. Удастся ли вам найти серию обменов, при которой Рама 


162 Глава 7. Алгоритм Дейкстры 


получит постер менее чем за $0? Продолжайте читать, когда будете готовы 
ответить на вопрос. Правильный ответ: нет, не удастся. Так как постер явля- 
ется узлом с наименьшей стоимостью, до которого может добраться Рама, 
снизить его стоимость невозможно. На происходящее можно взглянуть 
иначе: предположим, вы едете из дома на работу. 


Если вы выберете путь к школе, это займет 2 минуты. Если вы выберете 
путь к парку, это займет 6 минут. Существует ли путь, при котором вы вы- 
бираете путь к парку и оказываетесь в школе менее чем за 2 минуты? Это 
невозможно, потому что только для того, чтобы попасть в парк, потребует- 
ся более 2 минут. С другой стороны, можно ли найти более быстрый путь 
в парк? Да, можно. 


ЭТОТ ПУТЬ 
ЗАНИМАЕТ 


в мин “№ Ф 
Ў 0, 
© 
С) 
лом 2 \\ РАБОТА 
о өс 


ЭТОТ ПУТЬ ШКОЛА 
ЗАНИМАЕТ 

ВСЕГО 

3 МИН 


В этом заключается ключевая идея алгоритма Дейкстры: в графе ищется 
путь с наименьшей стоимостью. Пути к этому узлу с меньшими затратами 
не существует! 


Возвращаемся к музыкальному примеру. Вариант с постером обладает наи- 
меньшей стоимостью. 
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Шаг 2: Вычислить, сколько времени потребуется для того, чтобы добраться 
до всех его соседей (стоимость). 


м стои- 
пластинка „ГИТАРА ЯЗ РОДИТЕЛЬ УЗЕЛ МОСТЬ 


х книг^ | 
неее 
Гава 

Р Т [9987 

они 8 


5 
(7 { БАРАБАН 


5 т 
ПОСТЕР 5° 75 


Стоимости бас-гитары и барабана заносятся в таблицу. Они были заданы 
при переходе через узел постера, поэтому постер указывается как их роди- 
тель. А это означает, что для того, чтобы добраться до бас-гитары, вы про- 
ходите по ребру от постера; то же самое происходит с барабаном. 


стои- 
РОДИТЕЛЬ УЗЕЛ мость 


плАСТИНКА | $ | 
ее 2 


тата Јаман | 25 
Г — [лам [> | 


К ЭТИМ УЗЛАМ 
ПЕРЕХОДИМ ОТ 


УЗЛА «ПОСТЕР» 


Снова шаг 1: пластинка — следующий по стоимости узел ($5). 


Снова шаг 2: обновляются значения всех его соседей. 


стои- 
72 РОДИТЕЛЬ УЗЕЛ мость 


ПЛАСТИНКА 
15 


НИК 
И ое к — 
ТАСТАЛА кғаван [47-257 


35 2). БАРАБАН 


ПОСТЕР 
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Смотрите, стоимости барабана и гитары обновились! Это означает, что 
к барабану и гитаре дешевле перейти через ребро, идущее от пластинки. 
Соответственно, пластинка назначается новым родителем обоих инстру- 
ментов. 


Следующий по стоимости узел — бас-гитара. Обновите данные его со- 
седей. 


стои- 
РОПИТЕЛЬ УЗЕЛ мость 


` 
м 
2 


2 
2 
152 


ПОСТЕР БАРАБАН 


Хорошо, мы наконец-то вычислили стоимость для пианино при условии 
обмена гитары на пианино. Соответственно, гитара назначается родителем. 
Наконец, задается стоимость последнего узла — барабана. 


БАС- стои- 
Е И РОДИТЕЛЬ УЗЕЛ мость 
15 КНИГА ПЛАСТИНКА 
А 
55 ПЛАСТИНКА | ГИТАРА 28 


® 35 
ПОСТЕР БАРАБАН 


Оказывается, Рама может получить пианино еще дешевле, поменяв удар- 
ную установку на пианино. Таким образом, самая дешевая цепочка обменов 
обойдется Раме в $35. 
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Теперь, как я и обещал, необходимо вычислить итоговый путь. К этому 
моменту вы уже знаете, что кратчайший путь обойдется в $35, но как этот 
путь определить? Для начала возьмем родителя узла «пианино». 


РОПИТЕЛЬ УЗЕЛ 


ПЛАСТИНКА 
ПЛАСТИНКА [БАРАБАН | 


В качестве родителя узла «пианино» указан узел «барабан». 


БАС- 
АСТИНКА 
ПАТИ 45 ГИТАРА 


35 
ПОСТЕР БАРАБАН 


А в качестве родителя узла «барабан» указан узел «пластинка». 


БАС- 
ПЛАСТИНКА — ГИТАРА 
5 >> 
КНИГА 
ЛИАНИНО 
р + 


35 
ПОСТЕР БАРАБАН 
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Следовательно, Рама обменивает пластинку на барабан. И конечно, в самом 
начале он меняет книгу на пластинку. Проходя по родительским узлам в об- 
ратном направлении, мы получаем полный путь. 


БАС- 
ЛЛАСТИНКА ГИТАРА 


15 


КНИГА Г. 
У а пилнино 


С) 
постер 52 БАРАБАН 


Серия обменов, которую должен сделать Рама, выглядит так: 


ПЛАСТИНКА 


> т 


БАРАБАН 


ЛЛАСТИНКА 


бА > 


БАРАБАН ЛИАНИНО 


До сих пор я использовал термин «кратчайший путь» более или менее 
буквально, понимая под ним вычисление кратчайшего пути между двумя 
точками или двумя людьми. Надеюсь, этот пример показал, что кратчайший 
путь далеко не всегда связывается с физическим расстоянием: он может 
быть направлен на минимизацию какой-либо характеристики. В нашем 
примере Рама хотел свести к минимуму свои затраты при обмене. Спасибо 
Дейкстре! 
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Ребра с отрицательным весом ПЛАСТИНКА 


В предыдущем примере Алекс предложил в обмен 55 


на книгу один из двух предметов. КНИГА 


Предположим, Сара предложила обменять пла- Ы 
стинку на постер и при этом она еще и даст Раме 

$7. Рама ничего не тратит при этом обмене, вместо 

этого он получит $7. Как изобразить это предло- 

жение на графе? 


ЛОСТЕР 


ПЛАСТИНКА 
САРА ДАСТ РАМЕ 
5 И 83, ЕСЛИ ОН 
1 ПОМЕНЯЕТ СВОЮ 
КНИГА УМ ПЛАСТИНКУ 
$ НА ЕЕ ПОСТЕР 
ПОСТЕР 


Ребро, ведущее от пластинки к постеру, имеет отрицательный вес! Если 
Рама пойдет на этот обмен, он получит $7. Теперь к постеру можно до- 
браться двумя способами. 


ПЛАСТИНКА ПЛАСТИНКА 
5 5 
П] 1 
КНИГА м КНИГА м 
ё =.) 
ПОСТЕР ПОСТЕР 
ЕСЛИ РАМА ИДЕТ 
ЕСЛИ РАМА ИДЕТ 
ПО ЭТамт Пти, ПО ЭТОМУ ПУТИ, 


ОН ПОЛУЧАЕТ $0 ОН ПОЛУЧАЕТ $2 
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А значит, во втором обмене появляется смысл — Рама получает $2! 


Теперь, если вы помните, Рама может обменять постер на барабан. И здесь 
возможны два пути. 


ПЛАСТИНКА ПЛАСТИНКА 
$ ъ 

КНИГА я КНИГА м 
». БАРАБАН 9 


ПОСТЕР 35 БАРАБАН 


8. 

а і ОБЩАЯ СТОИМОСТЬ. і.“ ~ 
ОБЩАЯ СТОИМОСТЬ ° +35 ОБМЕНОВ $33. 
ОБМЕНОВ р 


Второй путь обойдется на $2 дешевле, поэтому нужно выбрать этот путь, 
верно? 


И знаете что? Если применить алгоритм Дейкстры к этому графу, Рама 
выберет неверный путь. Он пойдет по более длинному пути. Алгоритм 
Дейкстры не может использоваться при наличии ребер, имеющих отри- 
цательный вес. Такие ребра нарушают работу алгоритма. Посмотрим, что 
произойдет, если попытаться применить алгоритм Дейкстры к этому графу. 
Все начинается с построения таблицы стоимостей. 


ЛОСТЕР 
БАРАБАН 


СТОИМОСТИ 


Теперь найдем узел с наименьшей стоимостью и обновим стоимости его со- 
седей. В этом случае постер оказывается узлом с наименьшей стоимостью. 
Итак, в соответствии с алгоритмом Дейкстры, к постеру невозможно перей- 
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ти более дешевым способом, чем с оплатой $0 (а вы знаете, что это неверно!) 
Как бы то ни было, обновим стоимости его соседей. 


ПЛАСТИНКА 
ПЛАСТИНКА | 5 
5 
МГА 
о С 
ПОСТЕР 35 


СТОИМОСТИ 


Получается, что теперь стоимость барабана составляет $35. 


Перейдем к следующему по стоимости узлу, который еще не был обработан. 


Обновим стоимости его соседей. 


ПЛАСТИНКА 


5 1 
КНИГА м 
= 
5 


ПОСТЕР = БАРАБАН 


стоимости 


Узел «постер» уже был обработан, однако вы обновляете его стоимость. 
Это очень тревожный признак — обработка узла означает, что к нему не- 
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возможно добраться с меньшими затратами. Но вы только что нашли более 
дешевый путь к постеру! У барабана соседей нет, поэтому работа алгоритма 
завершена. Ниже приведены итоговые стоимости. 


ЛЛА- 
станк 


ИТОГОВЫЕ 
стоимости 


Чтобы добраться до барабанов, Раме потребовалось $35. Вы знаете, что 
существует путь, который стоит всего $33, но алгоритм Дейкстры его не на- 
ходит. Алгоритм Дейкстры предположил, что, поскольку вы обрабатываете 
узел «постер», к этому узлу невозможно добраться быстрее. Это предполо- 
жение работает только в том случае, если ребер с отрицательным весом не 
существует. Следовательно, использование алгоритма Дейкстры с графом, 
содержащим ребра с отрицательным весом, невозможно. Если вы хотите 
найти кратчайший путь в графе, содержащем ребра с отрицательным весом, 
для этого существует специальный алгоритм, называемый алгоритмом 
Беллмана— Форда. Рассмотрение этого алгоритма выходит за рамки этой 
книги, но вы сможете найти хорошие описания в Интернете. 


Реализация 


Посмотрим, как алгоритм Дейкстры реализуется в программном коде. Ниже 
изображен граф, который будет использоваться в этом примере. 
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Для реализации этого примера понадобятся три хеш-таблицы. 


ГРАФ стоимости РО.ПИТЕЛИ 
(СКАРН) (С0$Т5) (РАЋЕМТ5) 


Хеш-таблицы стоимостей и родителей будут обновляться по ходу работы 
алгоритма. Сначала необходимо реализовать граф. Как и в главе 6, для этого 
будет использована хеш-таблица: 


вгарћ = {} 
В предыдущей главе все соседи узла были сохранены в хеш-таблице: 
вгарһ["уои"] = ["а11се", "боб", "с1аіге"] 


Но на этот раз необходимо сохранить как соседей, так и стоимость перехода 
к соседу. Предположим, у начального узла есть два соседа, А и В. 


НАЧАЛО 
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Как представить веса этих ребер? Почему бы не воспользоваться другой 
хеш-таблицей? 


вгарћ["ѕ+агі"] = {} 
вгарһ["ѕёаг"]["а"] = 
вгарН[" $Фаг*"] ["Ь"] 


і ] 
м 


ЭТА ХЕШ-ТАБЛИЦА 
СОПЕРЖИТ ПРУГИЕ 
ХЕШ-ТАБЛИЦЫ 


Итак, вгар!["$+аг*"] является хеш-таблицей. Для получения всех соседей 
начального узла можно воспользоваться следующим выражением: 


>>> рг1пе вгарћ["ѕ+агі"].Кеуѕ() 
["а", "Ь"] 


Одно ребро ведет из начального узла в А, а другое — из начального узла в В. 
А если вы захотите узнать веса этих ребер? 


>>> ргіпі вгарћ["ѕ&аге"]["а"] 
2 
>>> ргіпі вгарН[" $Фаг*" ] ["Б"] 
6 


Включим в граф остальные узлы и их соседей: 


вгарн["а"] = {} 
вгарћ[ "а" ] ["41т" ] = 
вгарн["6"] = {} 
вгарв["6"]["а"] = 
вгарН[ "Б" ]["+Ғіп" ] = 5 

Бгарһ["Ғіп"] = {} ж У конечного узла нет соседей 


| 
Га" 


Ч) 
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Полная хеш-таблица графа выглядит так: 


ЬСЕ 

это 
ХЕШ- 
ТАБЛИЦЫ 


Также понадобится хеш-таблица для хранения стоимо- 
стей всех узлов. 


Стоимость узла определяет, сколько времени потребу- 
ется для перехода к этому узлу от начального узла. Вы 
знаете, что переход от начального узла к узлу В занимает 


стоимости 
(с0575) 2 минуты. Вы знаете, что для перехода к узлу А требует- 


ся 6 минут (хотя, возможно, вы найдете более быстрый 
путь). Вы не знаете, сколько времени потребуется для достижения конечно- 
го узла. Если стоимость еще неизвестна, она считается бесконечной. Можно 
ли представить бесконечность в Рућоп? Оказывается, можно: 


типу = #1оаї("іп#") 
Код создания таблицы стоимостей соѕ+: 


іпҒіпіёу = +1оа*("1п+") 
соѕ515 = {} 
со$1$["а"] 
соѕ15["Ь"] 
соѕ 5 ["Ғіп"] 


6 
2 
= іпҒіпі+у 


174 Глава 7. Алгоритм Дейкстры 


Для родителей также создается отдельная таблица: 


(СУ\ 
те е 
ЕЕЕ 


РОДИТЕЛИ 
(РАЋЕМТ5) 


Код создания хеш-таблицы родителей: 


рагеп*$ = {} 

рагепїѕ ["а"] "ѕагі" 
рагепіѕ["Ь"] = "ѕ+аг+" 
рагепіѕ["іп"] = №пе 


Наконец, вам нужен массив для отслеживания всех уже обработанных уз- 
лов, так как один узел не должен обрабатываться многократно: 


ргосеѕѕеа = [] 


На этом подготовка завершается. Теперь обратимся к алгоритму. 


ЛОКА ОСТАЮТСЯ НЕ- 
ОБРАБОТАННЫЕ УЗЛЫ 


ЬЗЯТЬ УЗЕЛ, БЛИ- 
ЖАЙШИЙ К НАЧАЛУ 


ОБНОВИТЬ СТОИМОСТИ 
ПЛЯ ЕГО СОСЕПЕЙ 


ЕСЛИ СТОИМОСТИ 
КАКИХ-ЛИБО СОСЕ ПЕЙ 
БЫЛИ ОБНОВЛЕНЫ, ОБ- 
НОВИТЬ И РОПИТЕЛЕЙ 


ПОМЕТИТЬ УЗЕЛ 
КАК ОБРАБОТАННЫЙ 
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Сначала я приведу код, а потом мы разберем его более подробно. 


Найти узел с наименьшей стои- 
поде = Ғіпа 1омеѕї _соѕї пойе(соѕ+5) жение мостью среди необработанных 


мһі]е поде 1$ поё №пе: < Если обработаны все узлы, цикл “Не завершен 
05% = соѕ15 [пое] 


пеівһћбогѕ = ргарН[по4е] 


Ғог п іп пеірһрогѕ.Кеуѕ5(): же Перебрать всех соседей текущего узла 
пем_соѕ = соѕї + пеірһбогѕ[п] Если к соседу можно быстрее 
14 с05%$[п] > пем соѕ+: < добраться через текущий узел... 
соѕ15[п] = пем_соѕї ж. 5 ...обновить стоимость для этого узла 
рагеп*$[п] = поде <... Этот узел становится новым родителем для соседа 
ргосез5е4 .аррепа (по4е) «с. . Узел помечается как обработанный 
пое = Ғіпа 10омеѕї _соѕі пойе(соѕ+5) ж... Найти следующий узел для 


обработки и повторить цикл 


Так выглядит алгоритм Дейкстры на языке Ру(ћоп! Код функции будет 
приведен далее, а пока рассмотрим пример использования алгоритма 
в действии. 


Найти узел с наименьшей стоимостью. 


ГА [6 
0 л поде = Ва оке. «о#..лом(ойз) > Е < 


«\? 
ЗА стоимости 


Получить стоимость и соседей этого узла. 


8 14 мое 
сок н а. 


мої ъ? пе! о = 9" [моде] 


МЕТСНЬОВ$ - 
ХЕШ-ТАБЛИЦА 
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Перебрать соседей. 


К п іп нео, Кец» (2: 121 


и СОПЕРЖИТ «А» СПИСОК 
Үзлов * 


У каждого узла имеется стоимость, которая определяет, сколько времени 
потребуется для достижения этого узла от начала. Здесь мы вычисляем, 
сколько времени потребуется для достижения узла А по пути Начало > 
Узел В > Узел А (вместо Начало > Узел А). 


Һеню._соѕЁ = соФ + пез Һә) 


^ \ Пеьз-созЁ = 2+? 
СТОИМОСТЬ «В», РАССТОЯНИЕ. - 5 
м. ё. 2 ОТ В Д0 А: 3 


Сравним ЭТИ СТОИМОСТИ. 


и соё > хер. со 


сой [и] = пем-со8й 
7 7 
Яд» 5 
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Новый путь проходит через узел В, поэтому В назначается новым родителем. 


рағен5 М] : Һофе 
МЕ 
А “ в’ 


РАКЕМТУ 


Мы снова вернулись к началу цикла. Следующим соседом в цикле +ог яв- 
ляется конечный узел. 


ЯРА у ім пећ, её С: 


Я 
5 
Р обам [А | 


+* 


Сколько времени потребуется для достижения конечного узла, если идти 
через узел В? 


пеш_со5 = соб + пезаБЪохя 9 


я у 2+5 
РАССТОЯНИЕ 2 
2 от 6 Д0 КОНЦА: 7 
5 


Потребуется 7 минут. Предыдущая стоимость была бесконечной, а 7 минут 
определенно меньше бесконечности. 


1" со$45 и > ИЕ л 


вые] < + 
ПРЕЖДЕ СТОИМОСТЬ .П0- 
сСо5715 СТИЖЕНИЯ КОНЕЧНОГО УЗЛА 


БЫЛА НЕОПРЕПЕЛЕННОЙ 
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Конечному узлу назначается новая стоимость и новый родитель. 


с ом] = ДВ 
7 я 


‘уу + 


раен (х) = поде 
7 т 


“я м?” “р” 


РАВЕМТ5 


Порядок, мы обновили стоимости всех соседей узла В. Узел помечается как 
обработанный. 


рүосезед. арреһд (поб) ОБРАБОТАННЫЕ 
р Л УЗЛЫ: 


Найти следующий узел для обработки. 


лофе = ад Ле. Соў. моде (созї) 


7 УЖЕ ОБРА- 77 
66,97 БОТАН 
А 
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Получить стоимость и соседей узла А. 


баа емее [моде] 
7 


5 
пе! аһЬогѕ = ао Моде) 


Теа. 
У узла А всего один сосед: конечный узел. 
фо им һеј. Кец»): 
а 


Еч 


Ы 


Время достижения конечного узла составляет 7 минут. Сколько времени по- 
требуется для достижения конечного узла, если идти через узел А? 


пеш-соёЇ = со. + пе! и] 


и у А 
стоимость стоимость от 5% 1 
ПЕРЕХОПА КА 00 КО ЕЧНОГО 
от НАЧАЛА: Э УЗЛА: 26 


и со] > пе со: 


о} 2. у у 
СТАРАЯ СТОИ- 

МОСТЬ ПЕРЕХОДА нта РА 7 
К КОНЕЧНОМУ 


узлу: 3 ЧЕРЕЗ А: 6 
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Через узел А можно добраться быстрее! Обновим стоимость и родителя. 


#5 и {= мен со6. 
сә я РА 


ры 6 


рое) = пое 
7 


в ем" “Аэ 


РАВЕМТ5 


После того как все узлы будут обработаны, алгоритм завершается. Надеюсь, 
этот пошаговый разбор помог вам чуть лучше понять алгоритм. С функцией 
+1п49_10още$*_со5*_по4е узел с наименьшей стоимостью находится проще 


простого. Код выглядит так: 


де+ 1п4_1оие$*_со$*_поде(со$*$): Если это узел 
1омеѕї_соѕ+ = 1оа*("1т+") с наименьшей 
1омеѕї_соѕї_поӣе = №пте стоимостью из 


Ғог поде іп соѕ+5: же Перебрать все узлы уже виденных 
с0$4 = соѕ#5[поде] ионеще не был 
1+ со$ < 10ме$*_с05% апа пойе пої іп ргосеѕѕей: <... обработан... 

1омеѕї_соѕї = с05 4 ...он назначается новым 
Іомеѕї_соѕї_пойе = пойе узлом с наименьшей 


гефигп 1омеѕї_соѕї_пойе стоимостью 
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Упражнения 


7.1 Каков вес кратчайшего пути от начала до конца в каждом из следую- 
щих графов? 


НАЧАЛО 


НАЧАЛО 
С. ,. 


Шпаргалка 
о Поиск в ширину вычисляет кратчайший путь в невзвешенном графе. 
о Алгоритм Дейкстры вычисляет кратчайший путь во взвешенном графе. 


о Алгоритм Дейкстры работает только в том случае, если все веса поло- 
жительны. 


о При наличии отрицательных весов используйте алгоритм Беллмана— 
Форда. 


< Жадные алгоритмы 


СКЕ 


В этой главе 


у Вы узнаете, как браться за невозможные задачи, не 
имеющие быстрого алгоритмического решения (М№Р-пол- 
ные задачи). 


/ Вы научитесь узнавать такие задачи и не терять время 
на поиски быстрого алгоритма (которого все равно 
нет). 


у Вы познакомитесь с приближенными алгоритмами, ко- 
торые могут использоваться для быстрого нахождения 
приближенного решения МР-полных задач. 


м Вы узнаете о жадной стратегии — очень простой стра- 
тегии решения задач. 


вовосоох осо в ровох ох овово сво оо осо о ооо сое о очочососьсоа 
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Задача составления расписания 


Допустим, имеется учебный класс, в котором нужно 
провести как можно больше уроков. Вы получаете 
список уроков. 


ПРЕПМЕТ С 


д0 
юс. | воо | 10:00 
суса 

Гозо |н | 


ААР” 


1:30 


Провести в классе все уроки не получится, потому что некоторые из них 
перекрываются по времени. 


а 4:30 10 40:30 11 11:30 12. 
| } | \ } } \ 


РИСОВАНИЕ 
а 
АНГЛИЙСКИЙ ЯЗЫК 


| стаи 


МАТЕМАТИКА 


ПЕНИИ 
ИНФОРМАТИКА 


вт] 
МУЗЫКА 
нечне аео 


Требуется провести в классе как можно больше уроков. Как отобрать уроки, 
чтобы полученный набор оказался самым большим из возможных? 


Вроде бы сложная задача, верно? На самом деле алгоритм оказывается на 
удивление простым. Вот как он работает: 


1. Выбрать урок, завершающийся раньше всех. Это первый урок, который 
будет проведен в классе. 


2. Затем выбирается урок, начинающийся после завершения первого уро- 
ка. И снова следует выбрать урок, который завершается раньше всех 
остальных. Он становится вторым уроком в расписании. 
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Продолжайте действовать по тому же принципу — и вы получите ответ! 
Давайте попробуем. Рисование заканчивается раньше всех уроков (в 10:00), 
поэтому мы выбираем именно его. 


Теперь нужно найти следующий урок, который начинается после 10:00 
и завершается раньше остальных. 


, 
о Т" 
неи позе |з 


МУЗЫКА | 11:00 | 12:00 


Английский язык отпадает — он перекрывается с рисованием, но матема- 
тика подходит. Наконец, информатика перекрывается с математикой, но 
музыка подходит. 


Са 
пес [5 
атаа 
Са 


МУЗЫКА 11:00 | 12:00 
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Итак, эти три урока должны проводиться в классе. 


4 4:39 10 10: 39 11 11:30 12 


РИСОВАНИЕ МАТЕМАТИКА МУЗЫКА 
АЕН АЕО ЕЕ 


Я очень часто слышу, что этот алгоритм подозрительно прост. Он слишком 
очевиден, а значит, должен быть неправильным. Но в этом и заключается 
красота жадных алгоритмов: они просты! Жадный алгоритм прост: на каж- 
дом шаге он выбирает оптимальный вариант. В нашем примере при выборе 
урока выбирается тот урок, который завершается раньше других. В техни- 
ческой терминологии: на каждом шаге выбирается локально-оптимальное 
решение, а в итоге вы получаете глобально-оптимальное решение. Хотите 
верьте, хотите нет, но этот простой алгоритм успешно находит оптимальное 
решение задачи составления расписания! 


Конечно, жадные алгоритмы работают не всегда. Но они так просто реали- 
зуются! Рассмотрим другой пример. 


Задача о рюкзаке 


Представьте, что вы жадный воришка. Вы забрались 
в магазин с рюкзаком, и перед вами множество товаров, 
которые вы можете украсть. Однако емкость рюкзака 
не бесконечна: он выдержит не более 35 фунтов. 


Требуется подобрать набор то- 
варов максимальной стоимости, 
которые можно сложить в рюкзак. Какой алгоритм вы 
будете использовать? 


И снова жадная стратегия выглядит очень просто: 


1. Выбрать самый дорогой предмет, который поместится в рюкзаке. 


2. Выбрать следующий по стоимости предмет, который поместится в рюк- 
заке... И так далее. 
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Вот только на этот раз она не работает! Предположим, есть три предмета. 


Соберите, 
МАГНИТОФОН КОУТБУК ГИТАРА 
438209 
З ФҮНТОВ ы _ р ви 
3. ФУНТОВ 


В рюкзаке поместятся товары общим весом не более 35 фунтов. Самый до- 
рогой товар — магнитофон, вы выбираете его. Теперь ни для чего другого 
места уже не осталось. 


у 5 ФУНТОВ НЕ ИСПОЛЬЗУЮТСЯ 


ЕМКОСТЬ 
РЮКЗАКА: 30 ФУНТОВ: 
35 ФУНТОВ МАГНИТОФОН 


ОБЩАЯ СТОИМОСТЬ: 
$3000 


Вы набрали товаров на $3000. Погодите-ка! Если бы вместо магнитофона 
вы выбрали ноутбук и гитару, то стоимость добычи составила бы $3500! 


15 ФУНТОВ: 
ГИТАРА " 
860 
20 ФУНТОВ: =. 
НОУТБУК =. 


ОБЩАЯ СТОИМОСТЬ: 
$3500 
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Очевидно, жадная стратегия не дает оптимального решения. Впрочем, ре- 
зультат не так уж далек от оптимума. В следующей главе я расскажу, как вы- 
числить правильное решение. Но вор, забравшийся в магазин, вряд ли станет 
стремиться к идеалу. «Достаточно хорошего» решения должно хватить. 


Второй пример приводит нас к следующему выводу: иногда идеальное — 
враг хорошего. В некоторых случаях достаточно алгоритма, способного 
решить задачу достаточно хорошо. И в таких областях жадные алгоритмы 
работают просто отлично, потому что они просто реализуются, а получен- 
ное решение обычно близко к оптимуму. 


Упражнения 


8.1 Вы работаете в фирме по производству мебели и поставляете мебель 
по всей стране. Коробки с мебелью размещаются в грузовике. Все 
коробки имеют разный размер, и вы стараетесь наиболее эффективно 
использовать доступное пространство. Как выбрать коробки для того, 
чтобы загрузка имела максимальную эффективность? Предложите 
жадную стратегию. Будет ли полученное решение оптимальным? 


8.2 Вы едете в Европу, и у вас есть семь дней на знакомство с достопри- 
мечательностями. Вы присваиваете каждой достопримечательности 
стоимость в баллах (насколько вы хотите ее увидеть) и оцениваете 
продолжительность поездки. Как обеспечить максимальную стои- 
мость (увидеть все самое важное) во время поездки? Предложите 
жадную стратегию. Будет ли полученное решение оптимальным? 


Рассмотрим еще один пример, в котором без жадных алгоритмов практи- 
чески не обойтись. 


Задача о покрытии множества 


Вы открываете собственную авторскую програм- 
му на радио и хотите, чтобы вас слушали во всех 
50 штатах. Нужно решить, на каких радиостанци- 
ях должна транслироваться ваша передача. Каждая 
станция стоит денег, поэтому количество станций не- 
обходимо свести к минимуму. Имеется список станций. 
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РАПИО- ДОСТУПНА 
СТАНЦИЯ 6 ШТАТАХ 


КЕМЕ 
и 


и. д. ... 


Каждая станция покрывает определенный набор штатов, эти наборы пере- 
крываются. 


Как найти минимальный набор станций, который бы покрывал все 50 шта- 


тов? Вроде бы простая задача, верно? Оказывается, она чрезвычайно слож- 
на. Вот как это делается: 


1. Составить список всех возможных подмножеств станций — так на- 


зываемое степенное множество. В нем содержатся 2^п возможных 
подмножеств. 


2. Из этого списка выбирается множество с наименьшим набором станций, 
покрывающих все 50 штатов. 
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МНОЖЕСТВО. МНОЖЕСТВО 8 ,, МНОЖЕСТВО 500 


ктм 
кече 


„иим. д. ... 


Проблема в том, что вычисление всех возможных подмножеств станций 
займет слишком много времени. Для п станций оно потребует време- 
ни О(2^п). Если станций немного, скажем от 5 до 10, — это допустимо. Но 
подумайте, что произойдет во всех рассмотренных примерах при большом 
количестве элементов. Предположим, вы можете вычислять по 10 подмно- 
жеств в секунду. 


Не существует алгоритма, который будет вычислять подмножества с при- 
емлемой скоростью! Что же делать? 


НЕОБХОДИМОЕ 
ВРЕМЯ 


КОЛИЧЕСТВО 
СТАНЦИЙ 


5 2.25 
1% 182.4 с 
32. 13.6 голл 
1%% Д-у 145 голл 


Приближенные алгоритмы 


На помощь приходят жадные алгоритмы! Вот как выглядит жадный алго- 
ритм, который выдает результат, достаточно близкий к оптимуму: 


1. Выбрать станцию, покрывающую наибольшее количество штатов, еще 
не входящих в покрытие. Если станция будет покрывать некоторые 
штаты, уже входящие в покрытие, это нормально. 


2. Повторять, пока остаются штаты, не входящие в покрытие. 
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Этот алгоритм является приближенным. Когда вычисление точного реше- 
ния занимает слишком много времени, применяется приближенный алго- 
ритм. Эффективность приближенного алгоритма оценивается по: 


о быстроте; 
О близости полученного решения к оптимальному. 


Жадные алгоритмы хороши не только тем, что они обычно легко формули- 
руются, но и тем, что простота обычно оборачивается быстротой выполне- 
ния. В данном случае жадный алгоритм выполняется за время О(п^2), где 
п — количество радиостанций. 


А теперь посмотрим, как эта задача выглядит в программном коде. 


Подготовительный код 


В этом примере для простоты будет использоваться небольшое подмноже- 
ство штатов и станций. 


Сначала составьте список штатов: 


" " " 
) 


Ѕіаїеѕ_пеейеа = ѕеї([ "те", "ма ог", "ій", "пм", "иё", 
"са", "а2"]) жение Переданный массив преобразуется в множество 


В этой реализации я использовал множество. Эта структура данных похо- 
жа на список, но каждый элемент может встречаться в множестве не более 
одного раза. Множества не содержат дубликатов. Предположим, имеется 
следующий список: 


>>> агг = [1, 2, 2, 3, 3, 3] 
Этот список преобразуется в множество: 
>>> ѕеї(агг) 


ѕеї([1, 2, 3]) 


Значения 1, 2 и З встречаются в списке по одному разу. 


ПРЕОБРА- 
М,2,2,3,3,3] э зав — (4,2,3) 
АЕТ МНОЖЕСТВО 
МНОЖЕСТВО 
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Также понадобится список станций, из которого будет выбираться покры- 
тие. Я решил воспользоваться хешем: 


Ѕаїіопѕ = {} 

$$а+1оп$ ["Копе"] = $е*(["14", "пу", "и*"]) 
ѕёа+іопѕ["КкЕмо"] = $е*(["ма", "іа", "ті"]) 
Ѕѕ+а+іопѕ["кЕһгее"] = ѕеЄ(["ог", "пу", "са"]) 
ѕёа+іопѕ[ "КҒоип"] = ѕе([ "пм", "иё" ]) 
ѕаіопѕ["КҒіуе"] = ѕеї([ "са", "а2"]) 


Ключи — названия станций, а значения — сокращенные обозначения шта- 
тов, входящих в зону охвата. Таким образом, в данном примере станция Копе 
вещает в штатах Айдахо (14), Невада (по) и Юта (и). Все значения являют- 
ся множествами. Как вы вскоре увидите, хранение данных во множествах 
упрощает работу. 


Наконец, нам понадобится структура данных для хранения итогового на- 
бора станций: 


+1па1_$+а{10п$ = ѕеї() 


Вычисление ответа 


Теперь необходимо вычислить набор используемых станций. Взгляните на 
диаграмму и попробуйте предсказать, какие станции следует использовать. 
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Учтите, что правильных решений может быть несколько. Вы перебираете 
все станции и выбираете ту, которая обслуживает больше всего штатов, не 
входящих в текущее покрытие. Будем называть ее беѕї_ѕ+аїіоп: 


Бе${_5фа{1оп = №пе 
5фафе$_соуегед = ѕеї() 
Ғог ѕ+аіоп, ѕаёеѕ Ғог ѕёа+іоп іп $+а%1оп$.14ет$(): 


Множество ѕ+а+еѕ_соуегеа содержит все штаты, обслуживаемые этой стан- 
цией, которые еще не входят в текущее покрытие. Цикл Ғог перебирает все 
станции и находит среди них наилучшую. Рассмотрим тело цикла ог: 


соуегей = $фафез_пеедей & $фафе$_+ог_$+а+1оп Новый синтаксис! Эта операция 
1+ 1еп(соуегед) > 1еп($+а+ез_соуегеа) БАЕ называется "пересечением 
реѕ+_ѕ+аїіоп = ѕ+афіоп множеств" 


5фафе$_соуегей = соуегеа 


В коде встречается необычная строка: 
соуегей = ѕ+аїеѕ пеейеа & 5+афе$_+ог_5+а1оп 
Что здесь происходит? 


Множества 


Допустим, имеется множество с названиями фруктов. 


АВОКАДО 
ПОМИДОР БАА 


ФРУКТЫ 


Также имеется множество с названиями овощей. 


СВЕКЛА МОРКОВЬ 
Ломи ПОР 


ОВОЩИ 
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С двумя множествами можно выполнить ряд интересных операций. 


ЭЛЕМЕНТЫ, КОТОРЫЕ ЭЛЕМЕНТЫ, КОТОРЫЕ 
ЯВЛЯЮТСЯ ФРУКТАМИ ЯВЛЯЮТСЯ ФРУКТАМИ 
ИЛИ ОВОЩАМИ И ОВОЩАМИ 


АВОКАДО 
СВЕКЛА МОРКОВЬ 


ЛОМИ.20Р БАНАН 


ОБЪЕПИНЕНИЕ ЛЕРЕСЕЧЕНИЕ 


ЭЛЕМЕНТЫ, КОТОРЫЕ ЯВЛЯЮТСЯ 
ФРУКТАМИ, НО НЕ ОВОЩАМИ 


СВЕКЛА 


МОРКОВЬ 
Ломи ДОР 


АВОКАПО 
БАНАН 


РАЗНОСТЬ 


а Объединение множеств означает слияние элементов обоих множеств. 


о Под операцией пересечения множеств понимается поиск элементов, 
входящих в оба множества (в данном случае — только помидор). 


о Под разностью множеств понимается исключение из одного множества 
элементов, присутствующих в другом множестве. 


Пример: 


>>> #гиіїѕ = ѕеї(["ауосайо", "фотафо", "Бапапа"]) 
>>> уерефа61ез = ѕеї(["Бееїѕ", "саггоёѕ", "Еота+о"]) 


>>> Ғгиіїѕ | уевефаб1е ҹ-----:--------..-: Объединение множеств 
зе*(["ауосадо", "Бееф5", "сагго*$", "фотафо", "Бапапа"]) 
>>> ги 5 & уевефа61е ее Пересечение множеств 
зе* (["+отафо"]) 

>>> #гиіїѕ - уере+ађ1еѕ еее Разность множеств 


ѕеї(["ауосайо", "Бапапа"]) 
>>> уереаБ1еѕ - +ги14$ ------:::-------- Как вы думаете, как будет выглядеть результат? 
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Еще раз напомню основные моменты: 
о множества похожи на списки, но множества не содержат дубликатов; 


О с множествами можно выполнять различные интересные операции — 
ВЫЧИСЛЯТЬ ИХ объединение, пересечение и разность. 


Вернемся к коду 


Продолжим рассматривать ИСХОДНЫЙ пример. 


Пересечение множеств: 


соуеге = ѕ+аїеѕ пеейей & ѕТаїеѕ Ғог_ ѕ?Таііоп 


Множество соуегед содержит штаты, присутствующие как в ѕаёеѕ_ пеейей, 
так и в 5+а%ез_+ог_5+а%1оп. Таким образом, соуегеа — множество штатов, не 
входящих в покрытие, которые покрываются текущей станцией! Затем мы 
проверяем, покрывает ли эта станция больше штатов, чем текущая станция 
Без{_$фа{1оп: 


1+ 1еп(соуегеа) > 1еп(ѕ+аеѕ соуегеа): 
реѕї _ѕТаїіоп = ѕ+Таїіоп 
ѕіаеѕ соуегеа = соуегеа 
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Если условие выполняется, то станция сохраняется в беѕ_ѕёаїтіоп. Нако- 
нец, после завершения цикла Бе$+_$+а*1оп добавляется В ИТОГОВЫЙ список 
станций: 


Ғіпа1_ѕ+а+іопѕ.ада(беѕ+_ѕ+а+іоп) 


Также необходимо обновить содержимое ѕёа+еѕ_пеедеӣ. Те штаты, которые 
входят в зону покрытия станции, больше не нужны: 


Ѕіаїеѕ_пеейеа -= зфафе$з_соуегеа 


Цикл продолжается, пока множество ѕ+аёеѕ_пеейеа не станет пустым. Пол- 
ный код цикла +ог выглядит так: 


мһі1е ѕ+а+еѕ пеедеа: 
реѕї_ѕ%атіоп = №пе 
Ѕіаеѕ_соуегеа = ѕеї() 
Ғоп $Таф1оп, ѕ+аїеѕ іп ѕїа+іопѕ.іетѕ(): 
соуегед = $+афез_пеедед & зфафе$ 
1+ 1еп(соуегед) > 1еп(з+афе$_соуегед): 
Без+_5фа{1оп = зфа{1оп 
5фафез_соуегей = соуегеа 


$фафез_пеедед -= Фафе$_соуегед 
Ғіпа1 ѕ+а+іопѕ.ааа(беѕі ѕ+а+іоп) 


Остается вывести содержимое Ғіпа1_ѕ+а+іопѕ: 


>>> ргіпі Ғіпа1_ѕ+а+іопѕ 
ѕеї(['Кёмо', 'КЕһгее', 'Копе', 'К#іме']) 


Этот результат совпадает с вашими ожиданиями? Вместо станций 1, 2, З 
и 5 можно было выбрать станции 2, 3, 4 и 5. Сравним время выполнения 
жадного алгоритма со временем точного алгоритма. 


Осо!» Осн?) 


КОЛИЧЕСТВО ТОЧНЫЙ ЖАПНЫЙ 
СТАНЦИЙ АЛГОРИТМ АЛГОРИТМ 


3.2 с 


2.5 с 


19 162.4 с 16 с 
32 13.6 гола 192.4. с 
19% 45 10 года 16.63 мин 
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Упражнения 


Для каждого из приведенных ниже алгоритмов укажите, является этот 
алгоритм жадным или нет. 


8.3 Быстрая сортировка. 
8.4 Поиск в ширину. 


8.5 Алгоритм Дейкстры. 


МР-полные задачи 


Для решения задачи о покрытии множества необходимо вычислить каждое 
возможное подмножество. 


МНОЖЕСТВО. МНОЖЕСТВО 8 ,, МНОЖЕСТВО 500 


Вероятно, вы вспомнили задачу о коммивояжере из главы 1. В этой задаче 
коммивояжер должен был посетить пять разных городов. 


МАРИН БЕРКЛИ 
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Коммивояжер пытается найти кратчайший путь, который включит все пять 
городов. Чтобы найти кратчайший путь, сначала необходимо вычислить 
все возможные пути. 


Сколько маршрутов необходимо вычислить для пяти городов? 


Задача о коммивояжере — шаг за шагом 


Начнем с малого. Допустим, городов всего два. Выбирать приходится всего 
из двух маршрутов. 


НАЧИНАЕМ КАЧИНАЕМ С САН- 
С МАРИНА ФРАНЦИСКО 


а) 0) 


ИЗ МАРИНА В САН- ИЗ САН-ФРАНЦИСКО 
ФРАНЦИСКО 8 МАРИН 


Логично спросить: в задаче о коммивояжере существует ли конкретный 
город, с которого нужно начинать? Допустим, коммивояжер живет в Сан- 
Франциско и должен посетить еще четыре города. Сан-Франциско должен 
быть первым городом в маршруте. 


Однако в каких-то ситуациях начальный город не задан. Допустим, вы ра- 
ботаете в курьерской службе Ее4Ех и должны доставить пакет в пределах 
города. Пакет перевозится из Чикаго в один из 50 филиалов ЕеаЕх. Затем 
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пакет будет перегружен в машину, которая разъезжает по разным местам 
и доставляет пакеты. В какой филиал отгрузить пакет? На этот раз началь- 
ная точка неизвестна, и в задаче о коммивояжере вам придется вычислить 
как оптимальный путь, так и начальную точку. 


Время выполнения обеих версий одинаково. Однако отсутствие определен- 
ного начального города упрощает пример, поэтому я выберу эту версию. 


Два города = два возможных маршрута. 


Три города 


Теперь добавим к двум городам еще один. Сколько возможных маршрутов 
существует в этой конфигурации? 


Если начать в Беркли, вы можете посетить два города. 


НАЧИНАЕМ 
8 БЕРКЛИ: 


а) БЕРКЛИ БЕРКЛИ 


МАРИН МАРИН 


САН-ФРАНЦИСКО САН-ФРАНЦИСКО 
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Всего шесть возможных маршрутов: по два для каждого города, с которого 
вы можете начать. 


НАЧИНАЕМ 
8 БЕРКЛИ: НАЧИНАЕМ 
БЕРКЛИ 8 МАРИНЕ: БЕРКЛИ 
БЕРВАИ БЕРКЛИ 
о ет З) 
МАРИН 
МАРИН 
А САН- 
САН-ФРАНЦИСКО САН-ФРАНЦИСКО Н ФРАНЦИСКО 
сы ФРАНЦИСКО В 


НАЧИНАЕМ В САН- 
ФРАНЦИСКО: 


БЕРКЛИ БЕРКЛИ 


97 га 


САН-ФРАНЦИСКО САН-ФРАНЦИСКО 


Итак, три города = шесть возможных маршрутов. 


Четыре города 


Добавим еще один город — Фремонт. Теперь допустим, что вы начали 
с Фремонта. 


НАЧИНАЕМ 80 ФРЕМОНТЕ: 


ЕСЛИ ВТОРОЙ ГОРОД — БЕРКЛИ: ЕСЛИ ВТОРОЙ ГОРОД — МАРИН: 
МАРИН 
(2) марин @) БЕРКЛИ (З) мати Ф р" 
ай БЕРКЛИ БЕРКЛИ 
та САН- 
о ФРАНЦИСКО САН-ФРАНЦИСКО _ \ САН-ФРАНЦИСКО 
ФРЕМОНТ 


200 Глава 8. Жадные алгоритмы 


ЕСЛИ ВТОРОЙ ГОРО — САН-ФРАНЦИСКО: 


МАРИН ©) МАРИН 


БЕРКЛИ БЕРКЛИ 


САН- САН- 
ФРАНЦИСКО ФРАНЦИСКО 


ФРЕМОНТ 
ФРЕМОНТ 


Мы знаем, что во Фремонте начинаются шесть возможных маршрутов. Ого! 
Да они очень похожи на шесть маршрутов, которые вы вычислили ранее, 
когда городов было всего три! Только теперь во всех маршрутах появился 
дополнительный город, Фремонт! Начинает проявляться закономерность. 
Предположим, из четырех городов выбирается начальный город Фремонт. 
Остается еще три города. И вы знаете, что для перемещения между тремя 
городами есть шесть разных маршрутов. Итак, если начать с Фремонта, 
существуют шесть возможных маршрутов. Также возможно начать с одного 


из других городов. 


НАЧИНАЕМ НАЧИНАЕМ 
8 МАРИНЕ: 8 САН-ФРАНЦИСКО: 


_ 6 ВОЗМОЖНЫХ = 
МАРШРУТОВ - 6 ВОЗМОЖНЫХ = 


МАРШРУТОВ 


НАЧИНАЕМ 
8 БЕРКЛИ: 


6 ВОЗМОЖНЫХ - 
< МАРШРУТОВ 


Четыре возможных начальных города, шесть возможных маршрутов для 
каждого начального города = 4 х 6 = 24 возможных маршрута. 
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Замечаете закономерность? Каждый раз, когда вы добавляете новый город, 
увеличивается количество вычисляемых маршрутов. 


КОЛИЧЕСТВО 
ГОРО.108 


1] > 1 МАРШРУТ 
^ = 2. МАРШРУТА 


а. пля КАЖДОГО НАЧАЛ 
2 -> 2 НАЧАЛЬНЫХ ГОРОДА % Е 


З НАЧАЛЬНЫХ ГОРОДА Ж $ МАРШРУТА = © МАРШРУТОВ 
а = 
д —> А НАЧАЛЬНЫХ ГОРОДА є 6 МАРШРУТОВ = 24 МАРШРУТА 


_> Б НАЧАЛЬНЫХ ТОРОЛО Ж 24 МАРШРУТА = 120 МАРШРУТОВ 


5 


Сколько возможных маршрутов существует для шести городов? 720, гово- 
рите? Да, вы правы. 5040 для 7 городов, 40 320 для 8 городов. 


Такая зависимость называется факториальной (помните, что об этом го- 
ворилось в главе 3?) Итак, 5! = 120. Допустим, есть 10 городов. Сколько 
существует возможных маршрутов? 10! = З 628 800. Уже для 10 городов 
приходится вычислять более З миллионов возможных маршрутов. Как ви- 
дите, количество возможных маршрутов стремительно растет! Вот почему 
невозможно вычислить «правильное» решение задачи о коммивояжере при 
очень большом количестве городов. 


У задачи о коммивояжере и задаче покрытия множества есть кое-что общее: 
вы вычисляете каждое возможное решение и выбираете кратчайшее/мини- 
мальное. Обе эти задачи являются №Р-полными. 
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Короткое объяснение МР-полноты: некоторые задачи прославились слож- 
ностью своего решения. Задача о коммивояжере и задача о покрытии 
множества — два классических примера. Многие эксперты считают, что 
написать быстрый алгоритм для решения таких задач невозможно. 


Как определить, что задача является МР-полной? 


Джон подбирает игроков для своей команды по 
американскому футболу. У него есть список нуж- 
ных качеств: хорошо играет в нападении, хорошо 
играет в защите, хорошо играет под дождем, хо- 
рошо играет под давлением и т. д. Также имеется 
список игроков, в котором каждый игрок обладает 
определенными качествами. 


М№Р-полные задачи 


ИГРОК КАЧЕСТВА 


МЭТТ ФОРТЕ ЕБ 


ме. ХОРОШО ИГРАЕТ 
БРЕНПАН МАРШАЛА ПОП ПАВЛЕНИЕМ 


ААРОН РОДЖЕРС Әв / и. 
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Джон хочет подобрать команду, которая обладает ПОЛНЫМ набором качеств, 
но размер команды ограничен. «Минутку, — осознает Джон, — но ведь это 


задача покрытия м ножества!» 


ОВ 


МАРО 


Для создания команды Джон может воспользоваться тем же приближенным 


алгоритмом: 


1. Найти игрока с большинством качеств, которые еще не были реализо- 


ваны. 


2. Повторять до тех пор, пока не будут реализованы все качества (или пока 


не кончатся свободные места в команде). 


МР-полные задачи встречаются очень часто. И было бы полезно, если бы 
вы могли понять, что решаемая задача является МР-полной. В этот момент 
можно прекратить поиски идеального решения и перейти к решению с при- 
менением приближенного алгоритма. Но определить, является ли ваша 
задача МР-полной, непросто. Обычно различия между легко решаемыми 
и МР-полными задачами весьма незначительны. Например, в предыдущих 
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главах я много говорил о кратчайших путях. Вы знаете, как вычислить 
кратчайший путь из точки А в точку В. 


АВТОБУС № 44 


АВТОБУС № 381. 


Но если вы хотите найти кратчайший путь, соединяющий несколько точек, 
то это уже задача о коммивояжере, которая является МР-полной. Короче 
говоря, не существует простого способа определить, является ли задача, 
с которой вы работаете, МР-полной. Несколько характерных признаков: 


О ваш алгоритм быстро работает при малом количестве элементов, но 
сильно замедляется при увеличении их числа; 


О формулировка «все комбинации Х» часто указывает на МР-полноту за- 
дачи; 


О вам приходится вычислять все возможные варианты Х, потому что за- 
дачу невозможно разбить на меньшие подзадачи? Такая задача может 
оказаться МР-полной; 


СО если в задаче встречается некоторая последовательность (например, 
последовательность городов, как в задаче о коммивояжере) и задача не 
имеет простого решения, она может оказаться МР-полной; 


О если в задаче встречается некоторое множество (например, множество 
радиостанций) и задача не имеет простого решения, она может оказаться 
МР-полной; 


О можно ли переформулировать задачу в условиях задачи покрытия 
множества или задачи о коммивояжере? В таком случае ваша задача 
определенно является МР-полной. 
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Упражнения 


8.6 Почтальон должен доставить письма в 20 домов. Ему нужно найти 
кратчайший путь, проходящий через все 20 домов. Является ли эта 
задача МР-полной? 


8.7 Имеется задача поиска максимальной клики в множестве людей (кли- 
кой называется множество людей, каждый из которых знаком со всеми 
остальными). Является ли эта задача МР-полной? 


8.8 Вы рисуете карту США, на которой два соседних штата не могут быть 
окрашены в одинаковый цвет. Требуется найти минимальное количе- 
ство цветов, при котором любые два соседних штата будут окрашены 
в разные цвета. Является ли эта задача МР-полной? 


Шпаргалка 


О Жадные алгоритмы стремятся к локальной оптимизации в расчете на то, 
что в итоге будет достигнут глобальный оптимум. 


о У МР-полных задач не существует известных быстрых решений. 


о Если у вас имеется МР-полная задача, лучше всего воспользоваться при- 
ближенным алгоритмом. 


о Жадные алгоритмы легко реализуются и быстро выполняются, поэтому 
из них получаются хорошие приближенные алгоритмы. 


Динамическое 
программирование 


В этой главе 


/ Вы освоите динамическое программирование — метод 
решения сложных задач, разбиваемых на подзадачи, 
которые решаются в первую очередь. 


м Рассматриваются примеры, которые научат вас искать 
решения новых задач, основанные на методе динами- 
ческого программирования. 


зоо ооо чово ооо ооо чочоо оо очно о оо око оо 


Задача о рюкзаке 


Вернемся к задаче о рюкзаке из главы 8. У вас 
есть рюкзак, в котором можно унести товары 
общим весом до 4 фунтов. 
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МАГНИТОФОН ВаТЕУК -- 
43006 Ф 
$2575 41509 
А. ФУНТА 3 ФУНТА 1 
ФУНТ 


Есть три предмета, которые можно уложить в рюкзак. 


Какие предметы следует положить в рюкзак, чтобы стоимость добычи была 
максимальной? 


Простое решение 


Простой алгоритм выглядит так: вы перебираете все возможные множества 
товаров и находите множество с максимальной стоимостью. 


/ рр ) 


НОУТБУК 


МАТНИТО- 
ФОН 


НОУТБУК 


ГИТАРА ГИТАРА 


Ре 
МАГНИТО 
=. ФОН 


У НЕ помЕЦАЕТСЯ 435$ УНЕ ПОМЕЦАЕТСЯ у НЕ ПОМЕЩАЕТСЯ 


ГА 
МАКСИМАЛЬНАЯ 
Стоимость 


+ 
НОУТБУК 
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Такое решение работает, но очень медленно. Для 3 предметов приходится 
обработать 8 возможных множеств, для 4 — 16 ит. д. С каждым добавляе- 
мым предметом количество множеств удваивается! Этот алгоритм выпол- 
няется за время О(2^п), что очень, очень медленно. 


З ПРЕДМЕТА: Д. ПРЕДМЕТА: 5 ПРЕДМЕТОВ: 
% 
возможных 
МНОЖЕСТВ 16 
ВОЗМОЖНЫХ 
4 МНОЖЕСТВ 
< 
аа 
зе МАМА 32 
се (У) 
КУ ВОЗМОЖНЫХ 
м^ МНОЖЕСТВА 


Для любого сколько-нибудь значительного количества предметов это не- 
приемлемо. В главе 8 вы видели, как вычисляются приближенные решения. 
Такие решения близки к оптимальным, но могут не совпадать с ними. 


Как же вычислить оптимальное решение? 


Динамическое программирование 


Ответ: с помощью динамического программирования! Давайте посмотрим, 
как работает этот метод. Процедура начинается с решения подзадач с по- 
степенным переходом к решению полной задачи. 


В задаче о рюкзаке начать следует с реше- \ 
ния задачи для меньшего рюкзака (или = ПП 
«подрюкзака»), а потом на этой основе 
попытаться решить исходную задачу. 


Динамическое программирование — до- 
статочно сложная концепция; не огор- 
чайтесь, если после первого прочтения 
что-то останется непонятным. При- 
меры помогут вам разобраться в теме. 
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Для начала я покажу вам алгоритм в действии. После этого у вас наверняка 
появится много вопросов! Я постараюсь ответить на них. 


Каждый алгоритм динамического программирования начинается с табли- 


ЦЫ. Вот как ВЫГЛЯДИТ таблица для задачи о рюкзаке. 


СТОЛБЦЫ ПРЕПСТАВЛЯЮТ 
РАЗМЕРЫ РЮКЗАКА 
ОТ 1.10 4 ФУНТОВ 


ЛО ОДНОЙ ГИТАРА 


МАТНИТОФОН 


НОУТБУК 


а у 


Строки таблицы представляют предметы, а столбцы — емкость рюкзака от 
1 до 4 фунтов. Все эти столбцы нужны, потому что они упрощают вычис- 
ление стоимостей «подрюкзаков». 


В исходном состоянии таблица пуста. Нам предстоит заполнить каждую 
ячейку таблицы. После того как таблица будет заполнена, вы получите от- 
вет на свою задачу. Пожалуйста, внимательно разберитесь в происходящем. 
Нарисуйте собственную таблицу, а мы вместе ее заполним. 


Строка Гитара 
Точная формула для вычисления значений в таблице будет приведена 
позднее, а пока ограничимся общим описанием. Начнем с первой строки. 
12 3 4 
ГИТАРА 
МАГНИТОФОН 


НОУТБУК 
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Строка снабжена пометкой «гитара»; это означает, что вы пытаетесь уло- 
жить гитару в рюкзак. В каждой ячейке принимается простое решение: 
класть гитару в рюкзак или нет? Помните: мы пытаемся найти множество 
элементов с максимальной стоимостью. 


В первой ячейке емкость рюкзака равна 1 фунту. Гитара также весит 
1 фунт — значит, она поместится в рюкзак! Итак, стоимость этой ячейки 
составляет $1500, а в рюкзаке лежит гитара. 


Начнем заполнять ячейку. 


ГИТАРА 
МАТНИТОФОН 


НОУТБУК 


По тому же принципу каждая ячейка в таблице содержит список всех эле- 
ментов, которые помещаются в рюкзаке на данный момент. 


Посмотрим на следующую ячейку. На этот раз емкость рюкзака составляет 
2 фунта. Понятно, что гитара здесь поместится! 


ГИТАРА 
МАТНИТОФОН 


НОУТБУК 


Процедура повторяется для остальных ячеек строки. Вспомните, что теку- 
щей является первая строка, поэтому выбирать приходится только из одно- 
го предмета — гитары. Считайте, что два других предмета пока недоступны. 
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$1505 | №1500 | #150 


ГИТАРА 
МАГНИТОФОН 


НОУТБУК 


Возможно, к этому моменту вы слегка сбиты с толку. Почему все это дела- 
ется для рюкзаков с емкостью 1, 2 ит. д., если в задаче речь идет о рюкзаке 
с емкостью 4 фунта? Помните, что я говорил ранее? Метод динамического 
программирования начинает с малых задач, а затем переходит к большой 
задаче. Вы решаете подзадачи, которые помогут в решении большой задачи. 
Читайте дальше, и ситуация постепенно прояснится. 


После того как первая строка будет заполнена, таблица будет выглядеть так: 


1234 


$\ 505 | #1500 | #1500 


ГИТАРА [гг 
МАГНИТОФОН ВЕНИ 
м 


Помните, что мы стремимся обеспечить максимальную стоимость пред- 
метов в рюкзаке. Эта строка представляет текущую лучшую оценку мак- 
симума. Итак, на данный момент из этой строки следует, что для рюкзака 
с емкостью 4 фунта максимальная стоимость предметов составит $1500. 


КАША ТЕКУЩАЯ 
< ОЦЕНКА ТОГО, 


ГИТАРА ЧТО СЛЕДУЕТ 
КРАСТЬ: ГИТАРУ 
МАТНИТОФОН ЗА $1500 


НОУТБУК 
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Вы знаете, что это решение неокончательно. В процессе работы алгоритма 
оценка будет уточняться. 


Магнитофон 


Займемся следующей строкой, которая относится к магнитофону. Теперь, 
когда вы перешли ко второй строке, появляется выбор между магнито- 
фоном и гитарой. В каждой строке можно взять предмет этой строки или 
предметы, находящиеся в верхних строках. Таким образом, сейчас нельзя 
выбрать ноутбук, но можно выбрать магнитофон и/или гитару. Начнем 
с первой ячейки (рюкзак с емкостью 1 фунт). Текущая максимальная сто- 
имость предметов, которые можно положить в рюкзак с емкостью 1 фунт, 
составляет $1500. 


Эно ыы ий Я 3 4 


У 4\5оо |41500 |41500 


ГИТАРА 


МАГНИТОФОН 


НОУТБУК 


Брать магнитофон или нет? 


Емкость рюкзака составляет 1 фунт. Поместится туда магнитофон? Нет, он 
слишком тяжел! Так как магнитофон не помещается в рюкзак, максималь- 
ная оценка для 1-фунтового рюкзака остается равной $1500. 


Задача о рюкзаке 213 


> 


12 3 4. 


$1500 | #1500 | 41500 |4$15о5 


ГИТАРА г г г Г 
41500 
МАГНИТОФОН г 


То же самое происходит со следующими двумя клетками. Емкость этих 


рюкзаков составляет 2 и З фунта соответственно. Старая максимальная 
стоимость для обеих ячеек была равна $1500. 


та в 4 
Г Г Г г 


ГИТАРА 
ВЫ 
МАГНИТОФОН г г г 


Магнитофон все равно не помещается, так что оценка остается неизменной. 


А если емкость рюкзака увеличивается до 4 фунтов? Ага, магнитофон 
наконец-то войдет в рюкзак! Старая максимальная стоимость была равна 


$1500, но если вместо гитары положить магнитофон, она увеличится до 
$3000! Берем магнитофон. 


1 2 9.4 


41500 | $1500 | 41500 
ГИТАРА г Р 
о [$1550 [`3 
ҢОУТБУК ШЕ 


214 Глава 9. Динамическое программирование 


Оценка только что обновилась! Имея рюкзак емкостью 4 фунта, вы можете 
положить в него товары стоимостью по крайней мере $3000. Из таблицы 


видно, что оценка постепенно возрастает. 


«= СТАРАЯ ОЦЕНКА 


ГИТАРА 
МАТНИТОФОН «= НОВАЯ ОЦЕНКА 
НОУТБУК <— ИТОГОВОЕ РЕШЕНИЕ 


Ноутбук 


А теперь проделаем то же для ноутбука! Ноутбук весит 3 фунта, поэтому 
он не поместится в рюкзак с емкостью 1 или 2 фунта. Оценка для первых 
двух ячеек остается на уровне $1500. 


ГИТАРА 


МАГНИТОФОН 


КОУТБУК 


Для 3 фунтов старая оценка составляла $1500. Но теперь вы можете вы- 
брать ноутбук, который стоит $2000. Следовательно, новая максимальная 


оценка равна $2000! 


Задача о рюкзаке 215 


При 4 фунтах ситуация становится по-настоящему интересной. Это очень 
важная часть. В настоящее время оценка составляет $3000. В рюкзак можно 
положить ноутбук, но он стоит всего $2000. 


$ 3000 мн $2 ооо 


МАТНИТОФОН АОУТБУК 


Так-так, старая оценка была лучше. Но постойте! Ноутбук весит всего 
3 фунта, так что 1 фунт еще свободен! На это место можно еще что-нибудь 
ПОЛОЖИТЬ. 


$зооо нк| $20оо | 2??? 


МАГНИТОФОН НОУТБУК СВОБОДНОЕ 
МЕСТО 
НА 1 ФУНТ 


Какую максимальную стоимость можно разместить в 1 фунте? Да вы же 
уже вычислили ее! 


В соответствии с последней оценкой в свободном месте емкостью в 1 фунт 
можно разместить гитару стоимостью $1500. Следовательно, настоящее 
сравнение выглядит так: 


ЗООО им $2000 4 % |500 


МАТНИТОФОН КОУТБУК ГИТАРА 
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Вы удивлялись, зачем мы вычисляем максимальную стоимость для рюк- 
заков меньшей емкости? Надеюсь, теперь все стало на свои места! Если 
в рюкзаке остается свободное место, вы можете использовать ответы на эти 
подзадачи для определения того, чем заполнить это пространство. Вместо 
магнитофона лучше взять ноутбук + гитару за $3500. 


В завершающем состоянии таблица выглядит так: 


123 4 


ГИТАРА | #1502 | #1500 |41500 | $1505 

г г г г 
МАГНИТОФОН Барас 
г 


Ш г 


Итак, мы получили ответ: максимальная стоимость товаров, которые по- 
местятся в рюкзак, равна $3500 — для гитары и ноутбука. 


ОТВЕТ! 


Возможно, вы подумали, что я воспользовался другой формулой для 
вычисления стоимости последней ячейки. Это связано с тем, что я опу- 
стил некоторые лишние сложности при заполнении предыдущих ячеек. 
Стоимость каждой ячейки вычисляется по постоянной формуле, которая 
выглядит так: 


1. ПРЕДЫДУЩИЙ МАКСИМУМ (знач ЕНИЕ В СЕМ. [1-1] 62) 


стол- 
СТРОКА Е Или 
е = МАКСИМУМ 2. СТОИМОСТЬ ТЕКУЩЕГО ЭЛЕМЕНТА + 
сег {2 М СТОИМОСТЬ ОСТАВШЕГОСЯ ПРОСТРАНСТАА 


се 1-12] — 6ЕС ПРЕДМЕТИ] 


Применяя эту формулу к каждой ячейке таблицы, вы получите такую 
же таблицу, как у меня. Помните, что я говорил о решении подзадач? 


Задача о рюкзаке: вопросы 217 


Вы объединили решения двух подзадач для решения еще одной, большей 
задачи. 


Задача о рюкзаке: вопросы 


Вам все еще кажется, что это какой-то фокус? В этом раз- 
деле я отвечу на некоторые часто задаваемые вопросы. 


| РНомЕ 


ы $2698 
Что произойдет при добавлении элемента? при 


Представьте, что вы увидели четвертый предмет, который тоже можно за- 
сунуть в рюкзак! Вместе со всем предыдущим добром можно также украсть 
іРһопе. 


Придется ли пересчитывать все заново с новым предметом? Нет. Напомню, 
что динамическое программирование последовательно строит решение на 
основании вашей оценки. К настоящему моменту максимальные стоимости 
выглядят так: 


500 
ГИТАРА ае й 
г Г 
гч $3000 
МАТНИТОФОН == а А м 
$2006 | $3500 
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Это означает, что в рюкзак с емкостью 4 фунта можно упаковать товары 
стоимостью до $3500. И вы полагали, что это итоговый максимум. Но да- 
вайте добавим новую строку для іРћопе. 


ГИТАРА 


МАТНИТОФОН 
НОУТБУК 


ТРНОМЕ 


НОВЫЙ ОТВЕТ 


Оказывается, в таблице появляется новый максимум! Попробуйте запол- 
нить последнюю строку, прежде чем читать дальше. 


Начнем с первой ячейки. іРћопе сам по себе помещается в рюкзак с емко- 
стью 1 фунт. Старый максимум был равен $1500, но іРћопе стоит $2000. 
Значит, берем 1РБопе. 


ГИТАРА 
МАГНИТОФОН 
КОУТБУК 


ТРАОМЕ 


Задача о рюкзаке: вопросы 219 


В следующей ячейке можно разместить іРћопе и гитару. 


441500 | 41500 | $\550 $15э0 
г г г 


41555 | 41600 | $1500 $300 


- 


Для ячейки З ничего лучшего, чем снова взять іРћопе вместе с гитарой, все 
равно не найдется, поэтому оставим этот вариант. 


А вот в последней ячейке ситуация становится более интересной. Текущий 
максимум равен $3500. Вы снова можете взять іІРћопе, и у вас еще останется 
свободное место на 3 фунта. 


$3500 ни ( $2000 + 22Р 


1РНОМЕ СВОБОДНОЕ 
НОУТБУК+ГИТАРА и 


НА 3 ФУНТА 


Но эти З фунта можно заполнить на $2000! $2000 от іРћопе + $2000 из 
старой подзадачи: получается $4000. Новый максимум! 


Вот как выглядит новая завершающая таблица. 


41500 | 41500 51520 +1500 
г г г г 
#1500 | 4\500 | $1520 4300 
г Г г м 


№ 
НОВЫЙ ОТВЕТ 
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Вопрос: может ли значение в столбце уменьшиться? Такое возможно? 


т 9 Э 4 


МАКСИМАЛЬНАЯ 
Стоимость изн зоо $15065 |4\500 
УМЕНЬШАЕТСЯ 
РАБОТЫ 


Подумайте над ответом, прежде чем продолжить чтение. 


Ответ: нет. При каждой итерации сохраняется текущая оценка максимума. 
Эта оценка ни при каких условиях не может быть меньше предыдущей! 


Упражнения 


9.1 Предположим, к предметам добавился еще один: МРЗ-плеер. Он весит 
1 фунт и стоит $1000. Стоит ли брать его? 


Что произойдет при изменении порядка строк? 


Изменится ли ответ? Допустим, строки заполняются в другом порядке: 
магнитофон, ноутбук, гитара. Как будет выглядеть таблица? Заполните 
таблицу самостоятельно, прежде чем двигаться дальше. 


Таблица должна выглядеть так: 


за 
асы 
$2000 нов 

НОУТБУК |5 Ң м 
ГИТАРА [91550 | 41500 | ооо | $3500 
Г Г ңг 
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Ответ не изменился. Он не зависит от порядка строк. 


Можно ли заполнять таблицу по столбцам, 
а не по строкам? 


Попробуйте сами! В данной задаче это ни на что не влияет, но в других за- 
дачах возможны изменения. 


Что произойдет при добавлении меньшего элемента? 


Допустим, вы можете выбрать ожерелье, которое весит 0,5 фунта и стоит 
$1000. Пока структура таблицы предполагает, что все веса являются целы- 
ми числами. Теперь вы решаете взять ожерелье. Остается еще 3,5 фунта. 
Какую максимальную стоимость можно разместить в объеме 3,5 фунта? 
Неизвестно! Вы вычисляли стоимость только для рюкзаков с емкостью 
1, 2, Зи 4 фунта. Теперь придется определять стоимость для рюкзака на 
3,5 фунта. 


Из-за ожерелья приходится повысить точность представления весов, по- 
этому таблица должна измениться. 


05 1 15 2 25 3 35 4 
ГИТАРА 
МАТНИТОФОН 
АОУТБУК 


ОЖЕРЕЛЬЕ 


Можно ли взять часть предмета? 


Допустим, вы наполняете рюкзак в продуктовом магазине. Вы можете 
украсть мешки с чечевицей и рисом. Если весь мешок не помещается, его 
можно открыть и отсыпать столько, сколько унесете. В этом случае вы уже 
не действуете по принципу «все или ничего» — можно взять только часть 
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предмета. Как решить такую задачу методом динамического программи- 
рования? 


Ответ: никак. В решении, полученном методом динамического програм- 
мирования, вы либо берете предмет, либо не берете. Алгоритм не преду- 
сматривает возможность взять половину предмета. 


Однако проблема легко решается с помощью жадного алгоритма! Сна- 
чала вы берете самый ценный предмет — настолько ббльшую его часть, 
насколько возможно. Когда самый ценный предмет будет исчерпан, вы 
берете максимально возможную часть следующего по ценности предмета 
ИТ. Д. 


Допустим, вы можете выбирать из следующих товаров. 


И Ч У 


—— 


КИНОА ВАЛ РИС 
$6/ФУНТ ФЗ/ФҮНТ $2/ФУНТ 


Фунт киноа стоит дороже, чем фунт любого другого товара. А раз так — на- 
бирайте столько киноа, сколько сможете унести! И если вам удастся набить 
им свой рюкзак, то это и будет лучшее из возможных решений. 


РЮКЗАК 
НАБИТ 
КИНОА 


Если киноа кончится, а в рюкзаке еще остается свободное место, возьмите 
следующий по ценности товар и т. д. 
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Оптимизация туристического маршрута 


Представьте, что вы приехали в Лондон на выходные. У вас два дня, а мест, 
которые хочется посетить, слишком много. Побывать везде не получится, 
поэтому вы составляете список. 


ДОСТОПРИМЕЧАТЕЛЬНОСТЬ ЬРЕМЯ ОЦЕНКА 
ЬЕСТМИНСТЕРСКОЕ АББАТСТВО | '/, ДНЯ + 
ТЕАТР «ГЛОБУС» у, аня 6 
НАЦИОНАЛЬНАЯ ГАЛЕРЕЯ 1 ДЕНЬ а 
БРИТАНСКИ МУЗЕЙ 2 аня а 
СОБОР СВ. ПАВЛА у, ДНЯ Ф 


Для каждой достопримечательности, которую вы захотите увидеть, вы ука- 
зываете, сколько времени займет осмотр и насколько сильно вы хотите ее 
увидеть. Сможете ли вы построить оптимальный туристический маршрут 
на основании этого списка? 


Да это все та же задача о рюкзаке! Вместо ограниченной емкости рюкзака — 
ограниченное время. Вместо магнитофонов и ноутбуков — список мест, 
которые вы хотите посетить. Нарисуйте таблицу динамического програм- 
мирования для списка, прежде чем двигаться дальше. 


Вот как должна выглядеть эта таблица: 


БЕСТМИНСТЕР 
ТЕАТР «ГЛОБУС» 
НАЦИОНАЛЬНАЯ ГАЛЕРЕЯ 


БРИТАНСКИЙ МУЗЕЙ 
СОБОР СВ. ПАВЛА 
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Вы изобразили ее правильно? Теперь заполните. Какие достопримечатель- 
ности вы выберете? Ответ: 


ЪЕСТМИНСТЕР 

ТЕАТР «ГЛОБУС» 
НАЦИОНАЛЬНАЯ ГАЛЕРЕЯ 
БРИТАНСКИЙ МУЗЕЙ 


СОБОР СВ. ПАВЛА 


ОТВЕТ: 
ЪЕСТМИНСТЕРСКОЕ АББАТСТВО, 
НАЦИОНАЛЬНАЯ ГАЛЕРЕЯ, 
СОБОР СВ. ЛАВЛА 


Взаимозависимые элементы 


Предположим, вы хотите посетить Париж и добавили в свой список пару 
элементов. 


ЭЙФЕЛЕВА БАШНЯ [| му Ф 
ЛУВР јот | Я 
НОТР-ПАМ ро | + 


На их посещение потребуется много времени, потому что сначала придется 
приехать из Лондона в Париж. Переезд отнимает полдня. Если вы захотите 
посмотреть все 3 достопримечательности, осмотр займет 4,5 дня. 


Стоп, небольшая поправка. Вам не обязательно приезжать в Париж ради 
каждой достопримечательности. После того как вы там окажетесь, каждый 
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последующий элемент займет всего один день. Следовательно, потребуется 
1 день на каждую достопримечательность + 1 день на переезды = 3,5 дня, 
ане 4,5. 


Если вы положите Эйфелеву башню в свой «рюкзак», то Лувр станет «де- 
шевле» — он займет всего 1 день вместо 1,5 дня. Как смоделировать это 
обстоятельство в динамическом программировании? 


Никак. Динамическое программирование — мощный метод, способный ре- 
шать подзадачи и использовать полученные ответы для решения большой 
задачи. Динамическое программирование работает только в том случае, 
если каждая подзадача автономна, то есть не зависит от других подзадач. 
Из этого следует, что учесть поездки в Париж в алгоритме динамического 
программирования не удастся. 


Может ли оказаться, что решение требует 
более двух «подрюкзаков»? 


Может оказаться, что в лучшем решении должны отбираться больше двух 
элементов. В текущем варианте алгоритма объединяются не более двух 
«подрюкзаков» — больше двух их не бывает. Однако вполне возможно, что 
у этих «подрюкзаков» будут собственные «подрюкзаки». 


Ві 
25) 49 


Т 
МОГУТ БЫТЬ «ПОД- 
ТРЕХ «ПОПРЮКЗАКОВ» РОКА» ОЕ 


БЫТЬ НЕ МОЖЕТ СОПЕРЖАТ СОБСТВЕН- 
НЫЕ «ПОПРЮКЗАКИ» 
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Возможно ли, что при лучшем решении в рюкзаке 
остается пустое место? 


БРИЛЛИАНТ. 
СТОИМОСТЬ $1 000 000, 
ВЕС 3,5 ФУНТА 


Упражнения 


Да. Представьте, что вы можете также положить 
в рюкзак бриллиант. 


Бриллиант очень крупный: он весит 3,5 фунта 
и стоит 1 миллион долларов — намного больше, чем 
любые другие предметы. Безусловно, нужно брать 
именно его! Но в рюкзаке остается еще пустое место 
на 0,5 фунта, и в нем ничего не поместится. 


9.2 Предположим, что вы собираетесь в турпоход. Емкость вашего рюк- 
зака составляет 6 фунтов, и вы можете взять предметы из следующего 
списка. У каждого предмета имеется стоимость; чем она выше, тем 
важнее предмет: 


о 
о 
о 
о 


о 


вода, З фунта, 10; 


книга, 1 фунт, 3; 


еда, 2 фунта, 9; 


куртка, 2 фунта, 5; 


камера, 1 фунт, 


6 


Как выглядит оптимальный набор предметов для похода? 


Самая длинная общая подстрока 


Мы рассмотрели одну задачу динамического про- 
граммирования. Какие выводы из нее можно сде- 
лать? 


о Динамическое программирование применяется 
для оптимизации какой-либо характеристики 
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при заданных ограничениях. В задаче о рюкзаке требуется максимизи- 
ровать стоимость отобранных предметов с ограничениями по емкости 
рюкзака. 


о Динамическое программирование работает только в ситуациях, в кото- 
рых задача может быть разбита на автономные подзадачи, не зависящие 
друг от друга. 


Построить решение на базе динамического программирования бывает не- 
просто. В этом разделе мы сосредоточимся на этой теме. Несколько общих 
рекомендаций: 


О вкаждом решении из области динамического программирования стро- 
ится таблица; 


О значения ячеек таблицы обычно соответствуют оптимизируемой ха- 
рактеристике. Для задачи о рюкзаке значения представляли общую 
стоимость товаров; 


О каждая ячейка представляет подзадачу, поэтому вы должны подумать 
о том, как разбить задачу на подзадачи. Это поможет вам определиться 
с осями. 


Рассмотрим еще один пример. Допустим, вы от- 
крыли сайт @сйопату.сот. Пользователь вводит 
слово, а сайт возвращает определение. Но если 
пользователь ввел несуществующее слово, нуж- 
но предположить, какое слово имелось в виду. 
Алекс ищет определение «Ёѕһ», но он случайно 
ввел «һіѕһћ». Такого слова в словаре нет, но зато 
у вас есть список похожих слов. 


СЛОВА, ПОХОЖИЕ НА “ҢІЅҢ”: 


. НН 


• МІЅТА 


(Это несерьезный пример, поэтому список ограничен всего двумя словами. 
Вероятно, на практике такой список будет состоять из тысяч слов.) 
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Итак, Алекс ввел строку й15й. Какое слово он хотел ввести на самом деле: 
Јіѕр или 19а? 


Построение таблицы 


Как должна выглядеть таблица для этой задачи? Вы должны ответить на 
следующие вопросы. 


о Какие значения должны содержаться в ячейках? 
о Как разбить эту задачу на подзадачи? 
о Каков смысл осей таблицы? 


В динамическом программировании вы пытаетесь максимизировать неко- 
торую характеристику. В данном случае ищется самая длинная подстрока, 
общая в двух словах. Какую общую подстроку содержат #15й и /15А? А как 
насчет /іѕй и 01а? Именно это требуется вычислить. 


Как говорилось ранее, значения в ячейках обычно представляют ту характе- 
ристику, которую вы пытаетесь оптимизировать. Вероятно, в данном случае 
этой характеристикой будет число: длина самой длинной подстроки, общей 
для двух строк. 


Как разделить эту задачу на подзадачи? Например, можно заняться срав- 
нением подстрок. Вместо того чтобы сравнивать /іѕћ и /іѕй, можно сначала 
сравнить #15 и /іѕ. Каждая ячейка будет содержать длину самой длинной 
подстроки, общей для двух подстрок. Такое решение также подсказывает, 
что строками и столбцами таблицы, вероятно, будут два слова. А значит, 
таблица будет выглядеть примерно так: 


нл 6 н 
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Если у вас голова идет кругом, не огорчайтесь. Это сложный материал — 
собственно, именно поэтому я объясняю его в конце книги! Ниже будет 
приведено упражнение, чтобы вы могли самостоятельно потренироваться 
в динамическом программировании. 


Заполнение таблицы 


Сейчас вы уже достаточно хорошо представляете, как должна выглядеть 
таблица. По какой формуле заполняются ячейки таблицы? Мы можем не- 
много упростить свою задачу, потому что уже знаем решение — у /іѕй и Ѓіѕћ 
имеется общая подстрока длины 3: 15й. 


Однако этот факт ничего не говорит о том, какая формула должна ис- 
пользоваться. Программисты иногда шутят об использовании алгоритма 
Фейнмана. Алгоритм Фейнмана, названный по имени известного физика 
Ричарда Фейнмана, работает так: 


1. Записать формулировку задачи. 
2. Хорошенько подумать. 


3. Записать решение. 


Да, программисты — большие шутники! 


По правде говоря, простого способа вычислить формулу для данного случая 
не существует. Вам придется экспериментировать и искать работоспособное 


230 Глава 9. Динамическое программирование 


решение. Иногда алгоритм предоставляет не точный рецепт, а основу, на 
которую вы наращиваете свою идею. 


Попробуйте предложить решение этой задачи самостоятельно. Даю под- 
сказку — часть таблицы выглядит так: 


Чему равны другие значения? Вспомните, что каждая ячейка содержит 
значение подзадачи. Почему ячейка (3, 3) содержит значение 2? Почему 
ячейка (3, 4) содержит значение 0? 


Попытайтесь вывести формулу самостоятельно, прежде чем продолжить 
читать. Даже если вам не удастся получить правильный ответ, мои объяс- 
нения покажутся вам намного более понятными. 


Решение 


Итоговая версия таблицы выглядит так: 


Самая длинная общая подстрока 


А это моя формула для заполнения ячеек: 


1. ЕСЛИ БУКВЫ 
НЕ СОВПАДАЮТ, 
ЗНАЧЕНИЕ 
РАВНО О 


2. ЕСЛИ ОНИ СОВПАДАЮТ, 
ТО ЗНАЧЕНИЕ РАВНО 
ЗНАЧЕНИЮ ЯЧЕЙКИ 
НАВЕРХУ СЛЕВА +1 


На псевдокоде эта формула реализуется так: 


1+ мога_а[1] == мога_6[3]: ж Буквы совпадают 
се11[1][3] = се11[1-1][3-1] +1 < Буквы не совпадают 
е15е: 


се11[1][3] = @ 


Аналогичная таблица для строк /іѕћ и 01а: 


ИЕ : 
ОКОНЧА ЕоқончА- 
ТЕЛЬНЫЙ ТЕЛЬНЫЙ 
ОТВЕТ 


ОТВЕТ 
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Важный момент: в этой задаче окончательное решение далеко не всегда на- 
ходится в последней ячейке! В задаче о рюкзаке последняя ячейка всегда 
содержит окончательное решение. Но в задаче поиска самой длинной общей 
подстроки решение определяется самым большим числом в таблице — и это 
может быть не последняя, а какая-то другая ячейка. 


Вернемся к исходному вопросу: какая строка ближе к #15й? У строк й15й 
и Ай есть общая подстрока длиной в три буквы. У Аіѕ/ и 19а есть общая 
подстрока из двух букв. Скорее всего, Алекс хотел ввести строку /5й. 


Самая длинная общая подпоследовательность 


Предположим, Алекс ввел строку /оѕй. Какое слово он имел в виду: /15й 
или јот? 


Сравним строки по формуле самой длинной общей подстроки. 


Длина подстрок одинакова: две буквы! Но /оѕћ при этом ближе к /іЅ/: 


розн 
4 = 
Р 1 н ә 


5 
|24 


те 


о Н 
$ = 
Вы 2 
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Мы сравниваем самую длинную общую подстроку, а на самом деле нужно 
сравнивать самую длинную общую подпоследовательность: количество 
букв в последовательности, общих для двух слов. Как вычислить самую 
длинную общую подпоследовательность? 


Ниже приведена частично заполненная таблица для /15й и /о5й. 


Сможете ли вы определить формулу для этой таблицы? Самая длинная 
общая подпоследовательность имеет много общего с самой длинной общей 
подстрокой, и их формулы тоже очень похожи. Попробуйте решить задачу 
самостоятельно, а я приведу ответ ниже. 


Самая длинная общая подпоследовательность — 
решение 


Окончательная версия таблицы: 


САМАЯ ПЛИННАЯ ОБЩАЯ САМАЯ ПЛИННАЯ ОБЩАЯ 
ПОППОСЛЕПОВА- ПООЛОСЛЕП0ВА- 
ТЕЛЬНОСТЬ = 2 ТЕЛЬНОСТЬ = 3 
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А теперь моя формула для заполнения каждой ячейки: 


ДЛЯ СОСЕПЕЙ 


я (ОТЛИЧАЕТСЯ 
1. ЕСЛИ БУКВЫ ДЛИННОЙ ОБЩЕЙ 
НЕ СОВПА.ОАЮТ, ПОПСТРОКИ) 
ВЫБРАТЬ БОЛЬШЕЕ 
ЗНАЧЕНИЕ 


2. ЕСЛИ БУКВЫ СОВПА.ПАЮТ, 
ЗНАЧЕНИЕ РАВНО ЗНАЧЕНИЮ 
ЯЧЕЙКИ НАВЕРХУ СЛЕВА +1 
(КАК И В СЛУЧАЕ С САМОЙ 
ПЛИННОЙ ОБЩЕЙ 
ПО.2СТРОКОЙ) 


На псевдокоде эта формула реализуется так: 


1+ мога а[і] == мога 653]: <не Буквы совпадают 
се11[1][3] = се11[1-1][3-1] + 1 
е15е: мени Буквы не совпадают 


се11[1][]] = ма х(се11[1-1][3], се11[1][3-1]) 


Поздравляю — вы справились! Безусловно, это была одна из самых слож- 
ных глав в книге. Находит ли динамическое программирование практиче- 


ское применение? Да, находит. 


о Биологи используют самую длинную общую подпоследовательность 
для выявления сходства в цепях ДНК. По этой метрике можно судить 
о сходстве двух видов животных, двух заболеваний и т. д. Самая длинная 
общая подпоследовательность используется для поиска лекарства от 


рассеянного склероза. 
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о Вы когда-нибудь пользовались ключом 91++ (например, в команде 81+ 
а1##)? Этот ключ выводит информацию о различиях между двумя фай- 
лами, а для этого он использует динамическое программирование. 


о Мы также упоминали о сходстве строк. Расстояние Левенштейна оцени- 
вает, насколько похожи две строки, а для его вычисления применяется 
динамическое программирование. Расстояние Левенштейна использу- 
ется в самых разных областях, от проверки орфографии до выявления 
отправки пользователем данных, защищенных авторским правом. 


о Вы когда-нибудь работали в приложении, поддерживающем перенос 
слов, например Мтсгозой Мога? Как определить, где следует расставить 
переносы, чтобы длина строки оставалась более или менее постоянной? 
Динамическое программирование! 


Упражнения 


9.3 Нарисуйте и заполните таблицу для вычисления самой длинной об- 
щей подстроки между строками Бе и смез. 


Шпаргалка 


О Динамическое программирование применяется при оптимизации не- 
которой характеристики. 


О Динамическое программирование работает только в ситуациях, в кото- 
рых задача может быть разбита на автономные подзадачи. 


о В каждом решении из области динамического программирования стро- 
ится таблица. 


С Значения ячеек таблицы обычно соответствуют оптимизируемой харак- 
теристике. 


о Каждая ячейка представляет подзадачу, поэтому вы должны подумать 
о том, как разбить задачу на подзадачи. 


о Не существует единой формулы для вычисления решений методом ди- 
намического программирования. 


Алгоритм К ближайших 
соседей 


В этой главе 


у Вы научитесь строить системы классификации на базе 
алгоритма К ближайших соседей. 


у Вы узнаете об извлечении признаков. 


/ Вы узнаете о регрессии: прогнозировании чисел (на- 
пример, завтрашних биржевых котировок или успеха 
фильма у зрителей). 


м Вы познакомитесь с типичными сценариями исполь- 
зования и ограничениями алгоритма К ближайших со- 
седей. 


ооо оо ооо ооо ооо ооо ооо ооо осо ооо ион о ооо 


Апельсины и грейпфруты 


Взгляните на этот фрукт. Что это, апельсин 
или грейпфрут? Я слышал, что грейпфруты 
обычно крупнее, а их кожура имеет красно- 
ватый оттенок. 
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Мой мыслительный процесс выглядит примерно так: у меня в мозге суще- 
ствует некое подобие графика. 


9 

5 

= 

[9] 

е 
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. со 

А Бев у 

9 

> 

5 

< 

= 

== 

5 РАЗМЕР 

МАЛЫЙ е БОЛЬШОЙ 

А=АПЕЛЬСИН 
Г-=ГРЕЙПФРУТ 


Как правило, крупные и красные фрукты оказываются грейпфрутами. Этот 
фрукт большой и красный, поэтому, скорее всего, это грейпфрут. Но что, 
если вам попадется фрукт вроде такого? 


ЗАГА.ООЧНЫЙ 
= ФРУКТ 
|] 
= 
я 
а. 
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5 РАЗМЕР 


МАЛЫЙ е - БОЛЬШОЙ 
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Как классифицировать этот фрукт? Один из способов — рассмотреть со- 
седей этой точки. Возьмем ее трех ближайших соседей. 


- КРАСНЫЙ 


ОРАНЖЕВЫЙ ....- 


РАЗМЕР 


МАЛЫЙ е. БОЛЬШОЙ 


Среди соседей больше апельсинов, чем грейпфрутов. Следовательно, этот 
фрукт, скорее всего, является апельсином. Поздравляем: вы только что 
применили алгоритм А ближайших соседей для классификации! В целом 
алгоритм работает по довольно простому принципу. 


Г Г 
г г Г 
Г Г г Г 
? — РА — Й 
А А ый. А -О & 
^ № А А 
А А 
1. БЫ ПОЛУЧАЕТЕ 2. БЫ ПРОВЕРЯЕТЕ ЕГО 3. СРЕДИ СОСЕДЕЙ АПЕЛЬСИНОВ 
НОВЫЙ ФРУКТ ПЛЯ 3 БЛИЖАЙШИХ СОСЕПЕЙ БОЛЬШЕ, ЧЕМ ГРЕЙПФРУТОВ, 
КЛАССИФИКАЦИИ ПОЭТОМУ ФРУКТ, СКОРЕЕ ВСЕГО, 


ЯВЛЯЕТСЯ АПЕЛЬСИНОМ 


Алгоритм К ближайших соседей прост, но полезен! Если вы пытаетесь 
выполнить классификацию чего-либо, сначала попробуйте применить 
алгоритм К ближайших соседей. Рассмотрим более реалистичный пример. 
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Построение рекомендательной системы 


Представьте, что вы работаете на сайте Ме Их и хотите построить систему, 
которая будет рекомендовать фильмы для ваших пользователей. На высо- 
ком уровне эта задача похожа на задачу с грейпфрутами! 


Информация о каждом пользователе наносится на график. 


Положение пользователя определяется его вкусами, поэтому пользователи 
с похожими вкусами располагаются недалеко друг от друга. Предположим, 
вы хотите порекомендовать фильмы Приянке. Найдите пять пользователей, 
ближайших к ней. 
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У Джастина, Джей-Си, Джозефа, Ланса и Криса похожие вкусы. Значит, 
те фильмы, которые нравятся им, с большой вероятностью понравятся 
и Приянке! 


После того как у вас появится такая диаграмма, построить рекоменда- 
тельную систему будет несложно. Если Джастину нравится какой-нибудь 
фильм, порекомендуйте этот фильм Приянке. 


ВАМ МОЖЕТ 
ПОНРАВИТЬСЯ 
ЖА 257 
5 ПРЕВОСХОЛНО > ев 
2. ЕМУ ПОНРАВИЛСЯ 3. РЕКОМЕНДУЕМ 
1. ДЖАСТИН ФИЛЬМ ЭТОТ ФИЛЬМ 
СМОТРИТ ФИЛЬМ ПРИЯНКЕ 


Однако в картине не хватает одного важного фрагмента. Вы оценивали, на- 
сколько близки вкусы двух пользователей на графике. Но как определить, 
насколько они близки? 


Извлечение признаков 


В примере с грейпфрутами мы сравнивали фрукты на основании их размера 
и цвета кожуры. Размер и цвет — признаки, по которым ведется сравнение. 
Теперь предположим, что у вас есть три фрукта. Вы можете извлечь из них 
информацию, то есть провести извлечение признаков. 


РАЗМЕР: 2 2. 
цвет: 2. ! 


и 
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Данные трех фруктов наносятся на график. 


Є 


Ы А 

о 

2 в 
РАЗМЕР 


Из диаграммы хорошо видно, что фрукты А и В похожи. Давайте измерим 


степень их сходства. Для вычисления расстояния между двумя точками 
применяется формула Пифагора. 


2. 2. 
(х, -х,) + СУ. - %) 
Например, расстояние между А и В вычисляется так: 


{{@-27 + (2-0 


- Јо +1 


гг 
1 


и 
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Расстояние между А и В равно 1. Другие расстояния вычисляются анало- 
ГИЧНО. 


Формула расстояния подтверждает то, что мы видим: между фруктами А 
и Весть сходство. 


Допустим, вместо фруктов вы сравниваете пользователей Мех. Пользо- 
вателей нужно будет как-то нанести на график. Следовательно, каждого 
пользователя нужно будет преобразовать в координаты — так же, как это 
было сделано для фруктов. 


Когда вы сможете нанести пользователей на график, вы также сможете из- 
мерить расстояние между ними. 


Начнем с преобразования пользователей в набор чисел. Когда пользователь 
регистрируется на Ме Их, предложите ему оценить несколько категорий 
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фильмов: нравятся они лично ему или нет. Таким образом у вас появляется 
набор оценок для каждого пользователя! 


5) | г 


ЛРИЯНКҚА ДЖАСТИН МОРФЕУС 
КОМЕДИЯ 3 4 2 
БОЕВИК 4 З 5 
ДРАМА 4 5 | 
УЖАСЫ | і 3 
МЕЛОДРАМА 4 5 І 


Приянка и Джастин обожают мелодрамы и терпеть не могут ужасы. Мор- 
феусу нравятся боевики, но он не любит мелодрамы (хороший боевик не 
должен прерываться слащавой романтической сценой). Помните, как в за- 
даче об апельсинах и грейпфрутах каждый фрукт представлялся двумя чис- 
лами? Здесь каждый пользователь представляется набором из пяти чисел. 


> (2,2) 
> (3,4, 4,1,4) 


Математик скажет, что вместо вычисления расстояния в двух измерениях 
вы теперь вычисляете расстояние в пяти измерениях. Тем не менее формула 
расстояния остается неизменной. 


(о. а.) СЕУ = (©,-с.)+(4,-4,) + (е,-е.) 
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Просто на этот раз используется набор из пяти чисел вместо двух. 


Формула расстояния универсальна: даже если вы используете набор ИЗ 
миллиона чисел, расстояние вычисляется по той же формуле. Естественно 
спросить: какой смысл передает метрика расстояния с пятью числами? Она 
сообщает, насколько близки между собой эти наборы из пяти чисел. 


(3-4) +(4-3) +(4-9 +(1-)+(4-5) 


Г 
2 


\ 


{ 


и 


Это расстояние между Приянкой и Джастином. 


Вкусы Приянки и Джастина похожи. А насколько различаются вкусы 
Приянки и Морфеуса? Вычислите расстояние между ними, прежде чем 
продолжить чтение. 


Сколько у вас получилось? Приянка и Морфеус находятся на расстоянии 
24. По этому расстоянию можно понять, что у Приянки больше общего 
с Джастином, чем с Морфеусом. 


Прекрасно! Теперь порекомендовать фильм Приянке будет несложно: если 
Джастину понравился какой-то фильм, мы рекомендуем его Приянке, и на- 
оборот. Вы только что построили систему, рекомендующую фильмы. 


Если вы являетесь пользователем Ме Их, то Мех постоянно напоминает 
вам: «Пожалуйста, оценивайте больше фильмов. Чем больше фильмов вы 
оцените, тем точнее будут наши рекомендации». Теперь вы знаете почему: 
чем больше фильмов вы оцениваете, тем точнее Ме Их определяет, с какими 
пользователями у вас общие вкусы. 
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Упражнения 


10.1 


10.2 


В примере с Ме Их сходство между двумя пользователями оцени- 
валось по формуле расстояния. Но не все пользователи оценивают 
фильмы одинаково. Допустим, есть два пользователя, Йоги и Пинки, 
вкусы которых совпадают. Но Йоги ставит 5 баллов любому фильму, 
который ему понравился, а Пинки более разборчива и ставит «пятер- 
ки» только самым лучшим фильмам. Вроде бы вкусы одинаковые, но 
по метрике расстояния они не являются соседями. Как учесть разли- 
чия в стратегиях выставления оценок? 


Предположим, Мех определяет группу «авторитетов». Скажем, 
Квентин Тарантино и Уэс Андерсон относятся к числу авторитетов 
Ме Их, поэтому их оценки оказывают более сильное влияние, чем 
оценки рядовых пользователей. Как изменить систему рекомендаций, 
чтобы она учитывала повышенную ценность оценок авторитетов? 


Регрессия 


А теперь предположим, что просто порекомендовать фильм недостаточно: 
вы хотите спрогнозировать, какую оценку Приянка поставит фильму. Возь- 
мите 5 пользователей, находящихся вблизи от нее. 
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Кстати, я уже не в первый раз говорю о «ближайших пяти». В числе «5» нет 
ничего особенного: с таким же успехом можно взять 2 ближайших пользова- 
телей, 10 или 10 000. Поэтому-то алгоритм и называется «алгоритмом Ё бли- 
жайших пользователей», а не «алгоритмом 5 ближайших пользователей»! 


Допустим, вы пытаетесь угадать оценку Приянки для фильма «Идеальный 
голос». Как этот фильм оценили Джастин, Джей-Си, Джозеф, Ланс и Крис? 


ажАСТИН : 5 
АЖЕА-Си : 4- 
1Ж03ЕФ < 4- 
лис: 5 
кис: 3 


Если вычислить среднее арифметическое их оценок, вы получите 4,2. Такой 
метод прогнозирования называется регрессией. У алгоритма А ближайших 
соседей есть два основных применения: классификация и регрессия: 


О классификация = распределение по категориям; 
О регресия = прогнозирование ответа (в числовом выражении). 


Регрессия чрезвычайно полезна. Представьте, что вы открыли маленькую 
булочную в Беркли и каждый день выпекаете свежий хлеб. Вы пытаетесь 
предсказать, сколько буханок следует испечь на сегодня. Есть несколько 
признаков: 


О погода по шкале от 1 до 5 (1 = плохая, 5 = от- 
личная); 


О праздник или выходной? (1, если сегодня Па 
праздник или выходной, 0 в противном слу- 
чае); 


О проходят ли сегодня спортивные игры? (1 = да, 0 = нет). 


И вы знаете, сколько буханок хлеба было продано в прошлом при разных 
сочетаниях признаков. 
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А] (5,1, 2): 209 [В](3,1,1) - 225 


БУХАНОК 


250 


БУХАНОК 


С) ; 3, $) гета 54 ‚Ф ‚1) 


Е), 150 (2,8,8) = 56 


БУХАНОК БУХАНОК 


Сегодня выходной и хорошая погода. Сколько буханок вы продадите на 
основании только что приведенных данных? Используем алгоритм А бли- 
жайших соседей для Ё = 4. Сначала определим четырех ближайших соседей 
для этой точки. 


(4,1,8) =? 


Ниже перечислены расстояния. Точки А, В, Ри Е являются ближайшими. 


А, № < 
в. 2 < 
9 
р. 2 — 
Е. 1 < 
= 5 


Вычисляя среднее арифметическое продаж в эти дни, вы получаете 218,75. 
Значит, именно столько буханок нужно выпекать на сегодня! 
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Выбор признаков 


Чтобы подобрать рекомендации, вы предлага- 
ете пользователям ставить оценки категориям 
фильмов. А если бы вы вместо этого предла- 
гали им ставить оценки картинкам с котами? 
Наверное, вам бы удалось найти пользовате- 
лей, которые ставили похожие оценки этим картинкам. Однако у вас полу- 
чилась бы самая плохая рекомендательная система в мире, потому что эти 
«признаки» не имеют никакого отношения к их вкусам в области кино! 


Или представьте, что вы предлагаете пользователям оценить фильмы для 
формирования рекомендаций — но только «Историю игрушек», «Историю 
игрушек-2» и «Историю игрушек-3». Эти оценки ничего не скажут вам 
о вкусах пользователей. 


Когда вы работаете с алгоритмом А ближайших соседей, очень важно пра- 
вильно выбрать признаки для сравнения. Под правильным выбором при- 
знаков следует понимать: 
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О признаки, напрямую связанные с фильмами, которые вы пытаетесь 
рекомендовать; 


О признаки, не содержащие смещения (например, если предлагать поль- 
зователям оценивать только комедии, вы не получите никакой инфор- 
мации об их отношении к боевикам). 


Как вы думаете, оценки хорошо подходят для рекомендации фильмов? Воз- 
можно, я поставил «Прослушке» более высокую оценку, чем «Охотникам за 
недвижимостью», но на самом деле я провел больше времени за просмотром 
«Охотников». Как улучшить рекомендательную систему Мех? 


Возвращаясь к примеру с пекарней: сможете ли вы придумать два хо- 
роших и два плохих признака, которые можно было бы выбрать для 
прогнозирования объема выпечки? Возможно, нужно выпечь побольше 
хлеба после рекламы в газете. Или увеличить объем производства по по- 
недельникам. 


Втом, что касается выбора хороших признаков, не существует единственно 
правильного ответа. Тщательно продумайте все факторы, которые необхо- 
димо учесть при прогнозировании. 


Упражнения 


10.3 У сервиса Мех миллионы пользователей. В приведенном ранее 
примере рекомендательная система строилась для пяти ближайших 
соседей. Пять — это слишком мало? Слишком много? 
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Мало того, что алгоритм А ближайших соседей поле- хе 
зен — он открывает путь в волшебный мир машинно- 

го обучения! Суть машинного обучения — сделать <? А) 
ваш компьютер более разумным. Вы уже видели 

один пример машинного обучения: построение 2] 
рекомендательной системы. В этом разделе будут 

рассмотрены другие примеры. = 
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ОСА 


Сокращение ОСК означает «Орііса! Сћагасѓег Кесорпі(іоп», то есть «оп- 
тическое распознавание текста». Иначе говоря, вы берете фотографию 
страницы текста, а компьютер автоматически преобразует изображение 
в текст. Соое использует ОСК для оцифровки книг. Как работает ОСК? 
Для примера возьмем следующую цифру: 


Как автоматически определить, что это за цифра? Можно воспользоваться 
алгоритмом К ближайших соседей: 


1. Переберите изображения цифр и извлеките признаки. 


2. Получив новое изображение, извлеките признаки и проверьте ближай- 
ших соседей. 


По сути это та же задача, что и задача классификации апельсинов и грейп- 
фрутов. В общем случае алгоритмы ОСК основаны на выделении линий, 
точек и кривых. 


ЛИНИЯ ТОЧКА 
асг КРИВАЯ У 
<. 
«— ТОЧКА 4 Линия 
Г КРИВАЯ ТОЧКА 


Затем при получении нового символа из него можно извлечь те же при- 
знаки. 


Извлечение признаков в ОСК происходит намного сложнее, чем в примере 
с фруктами. Однако важно понимать, что даже сложные технологии стро- 
ятся на основе простых идей (таких, как алгоритм А ближайших соседей). 
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Те же принципы могут использоваться для распознавания речи или распо- 
знавания лиц. Когда вы отправляете фотографию на ЕасеБооК, иногда сайту 
хватает сообразительности для автоматической пометки людей на фото. 
Да это машинное обучение в действии! 


Первый шаг ОСК, в ходе которого перебираются изображения цифр и про- 
исходит извлечение признаков, называется тренировкой. В большинстве 
алгоритмов машинного обучения присутствует фаза тренировки: прежде 
чем компьютер сможет решить свою задачу, его необходимо натренировать. 
В следующем примере рассматривается создание спам-фильтров, и в нем 
тоже есть шаг тренировки. 


Построение слам-фильтра 


Спам-фильтры используют другой простой алгоритм, называемый наив- 
ным классификатором Байеса. Сначала наивный классификатор Байеса 
тренируется на данных. 


ТЕМА СПАМ? 
«ИЗМЕНИТЕ ПАРОЛЬ» НЕ СПАМ 
«БЫ ВЫИГРАЛИ МИЛЛИОН» СПАМ 
«СООБЩИТЕ СВОЙ ПАРОЛЬ» СПАМ 
«НИГЕРИЙСКИЙ ПРИНЦ ГОТОВ ПЕРЕВЕСТИ ВАМ МИЛЛИОН» СПАМ 
«С ПНЕМ РОЖПЕНИЯ\» НЕ СПАМ 


Предположим, вы получили сообщение с темой «Получите свой миллион 
прямо сейчас!» Это спам? Предложение можно разбить на слова, а затем 
для каждого слова проверить вероятность присутствия этого слова в спамо- 
вом сообщении. Например, в нашей очень простой модели слово «миллион» 
встречается только в спаме. Наивный классификатор Байеса вычисляет 
вероятность того, что сообщение с большой вероятностью является спамом. 
На практике он применяется примерно для тех же целей, что и алгоритм А 
ближайших соседей. 
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Например, наивный классификатор Байеса может использоваться для клас- 
сификации фруктов: есть большой и красный фрукт. Какова вероятность 
того, что он окажется грейпфрутом? Это простой, но весьма эффективный 
алгоритм — из тех, что нам нравятся больше всего! 


Прогнозы на биржевых торгах 


Есть одна задача, в которой трудно добиться успеха машинным обучением: 
точно спрогнозировать курсы акций на бирже. Как выбрать хорошие при- 
знаки? Предположим, вы говорите, что если курс акций рос вчера, то он 
будет расти и сегодня. Хороший это признак или нет? Или, предположим, 
вы утверждаете, что курс всегда снижается в мае. Сработает или нет? Не су- 
ществует гарантированного способа прогнозировать будущее на основании 
прошлых данных. Прогнозирование будущего — сложное дело, а при таком 
количестве переменных оно становится почти невозможным. 


ПРО.ПАВАЙТЕ! 


ПРОПАВАЙТЕ\ 
ПРО.ПАВАЙТЕ\ 


Шпаргалка 


Надеюсь, вы хотя бы в общих чертах поняли, что можно сделать с помощью 
алгоритма А ближайших соседей и машинного обучения! Машинное обу- 
чение — интересная область, и при желании в нее можно зайти достаточно 
глубоко. 


о Алгоритм № ближайших соседей применяется для классификации и ре- 
грессии. В нем используется проверка А ближайших соседей. 
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Классификация = распределение по категориям. 
Регрессия = прогнозирование результата (например, в виде числа). 


«Извлечением признаков» называется преобразование элемента (на- 
пример, фрукта или пользователя) в список чисел, которые могут ис- 
пользоваться для сравнения. 


Качественный выбор признаков — важная часть успешного алгоритма А 
ближайших соседей. 


Что дальше? 


ооо ооо ооо ооо ооо хо ооо ооо ооо ооо 


В этой главе 


м Приводится краткий обзор 10 алгоритмов, которые не 
рассматривались в книге, Вы узнаете, для чего нужны 
эти алгоритмы. 


У Я порекомендую книги, которые стоит читать дальше 
в зависимости от того, какие темы представляют инте- 
рес для вас. 


ооо оо ооо ооо ооо ооо ооо ооо ооо ооо ооо вео е 


Деревья 


Вернемся к примеру с бинарным по- 
иском. Когда пользователь вводит 
свое имя на сайте ЕасеБоок, сайт дол- 
жен проверить содержимое большого 
массива, чтобы узнать, существует ли 
пользователь с таким именем. Мы вы- 
яснили, что для нахождения значения 
в массиве быстрее всего воспользовать- 
СЯ бинарным ПОИСКОМ. Однако здесь 
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возникает проблема: каждый раз, когда на сайте регистрируется новый 
пользователь, придется заново сортировать массив, потому что бинарный 
поиск работает только с отсортированными массивами. Насколько удобнее 
было бы вставить пользователя в правильную ячейку массива, чтобы потом 
его не пришлось сортировать заново! Именно эта идея заложена в основу 
структуры данных бинарного дерева поиска. 


Бинарное дерево поиска выглядит так: 


0 Е 
бы: 9 


Для каждого узла все узлы левого поддерева содержат меньшие значения, 
а все узлы правого поддерева — большие значения. 
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Предположим, вы ищете узел Мазе. Поиск начинается с корневого узла. 


{ 


ь ^ ‘|, 


Строка Мавеїе идет после Раса, поэтому идем направо. 
\ 


Строка Мате предшествует Матпіпе, поэтому идем налево. 


Мы нашли узел Мағріе! В целом процедура поиска напоминает бинарный 
поиск. Поиск элемента в бинарном дереве поиска в среднем выполняется 
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за время О(]05 п), а в худшем случае — за время О(п). Поиск в отсортиро- 
ванном массиве выполняется за время О(1ов п) в худшем случае — казалось 
бы, отсортированный массив эффективнее. Однако бинарное дерево поиска 
в среднем работает намного быстрее при удалении и вставке элементов. 


БИНАРНОЕ ПЕРЕВО 
ПОИСКА 


поиск Обо | СО») 
ставка (С) (м) О(Цез к) 
УДАЛЕНИЕ () С) ОС) 


МАССИВ 


У бинарных деревьев поиска есть и свои недостатки: во-первых, они не под- 
держивают произвольный доступ. Вы не сможете потребовать: «Выдайте 
мне і-й элемент этого дерева». Кроме того, в таблице приведено среднее 
время выполнения операций; оно зависит от сбалансированности дерева. 
Допустим, ваше дерево не сбалансировано, как на следующем рисунке. 


Видите, как дерево перекошено вправо? Эффективность такого дерева 
оставляет желать лучшего, потому что это дерево не сбалансировано. Су- 
ществуют специальные бинарные деревья поиска, способные к самобалан- 
сировке (как, например, красно-черные деревья). 
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Где же используются бинарные деревья поиска? В-деревья, особая разно- 
видность бинарных деревьев, обычно используются для хранения инфор- 
мации в базах данных. 


Если вас интересуют базы данных или более сложные структуры данных, 
поищите информацию по следующим темам: 


О в-деревья; 
О красно-черные деревья; 
О кучи; 


О скошенные (ѕрІау) деревья. 


Инвертированные индексы 


Перед вами сильно упрощенное объяснение того, как работает поисковая 
система. Допустим, имеются три веб-страницы с простым содержимым. 


Сб Сб Т 
А в а 


Построим хеш-таблицу для этого содержимого. 


Ключами хеш-таблицы являются слова, а значения 
указывают, на каких страницах встречается каждое 
СЛОВО. Теперь предположим, что пользователь ищет 
слово #1. Посмотрим, на каких страницах это слово 
встречается. 
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Ага, слово встречается на страницах А и В. Выведем эти страницы в ре- 
зультатах поиска. Или предположим, что пользователь ищет слово Леге. 
Вы знаете, что это слово встречается на страницах А и С. Несложно, верно? 
Это очень полезная структура данных: хеш-таблица, связывающая слова 
с местами, в которых эти слова встречаются. Такая структура данных, на- 
зываемая инвертированным индексом, часто используется для построения 
поисковых систем. Если вас интересует область поиска, эта тема станет 
хорошей отправной точкой для дальнейшего изучения. 


Преобразование Фурье 


Преобразование Фурье — действительно выдающийся алгоритм: вели- 
колепный, элегантный и имеющий миллион практических применений. 
Лучшая аналогия для преобразования Фурье приводится на сайте Весќег 
Ехрате4 (отличный веб-сайт, на котором просто объясняется математиче- 
ская теория): если у вас есть коктейль, преобразование Фурье сообщает, из 
каких ингредиентов он состоит!. Или для заданной песни преобразование 
разделяет ее на отдельные частоты. 


Оказывается, эта простая идея находит множество практических приме- 
нений. Например, если песню можно разложить на частоты, вы можете 
усилить тот диапазон, который вас интересует, — скажем, усилить низкие 
частоты и приглушить высокие. Преобразование Фурье прекрасно под- 
ходит для обработки сигналов. Также оно может применяться для сжатия 
музыки: сначала звуковой файл разбивается на составляющие. Преобразо- 
вание Фурье сообщает, какой вклад вносит каждая составляющая в музыку, 
что позволяет исключить несущественные составляющие. Собственно, 
именно так работает музыкальный формат МРЗ! 


Музыка — не единственный вид цифровых сигналов. Графический фор- 
мат ЈРС также использует сжатие и работает по тому же принципу. Преоб- 
разование Фурье также применяется для прогнозирования землетрясений 
и анализа ДНК. 


Сего помощью можно построить аналог ЅҺағат — приложение, которое на- 
ходит песни по отрывкам. Преобразование Фурье очень часто применяется 
на практике. Почти наверняка вы с ним еще столкнетесь! 


' Каа, «Ап Пицегасиуе Сш@ае {о (ће Еоигіег Тгапѕѓогт,» Веісег ЕхрІаіпей, Һер: //тпұ. 
Ьх/874Х. 
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Па раллельные алгоритмы 


Следующие три темы связаны с масштабируемостью и обработкой больших 
объемов данных. Когда-то компьютеры становились все быстрее и быстрее. 
Если вы хотели, чтобы ваш алгоритм работал быстрее, можно было подо- 
ждать несколько месяцев и запустить программу на более МОЩНОМ КОМПЬЮ- 
тере. Но сейчас этот период подошел к концу. Современные компьютеры 
и ноутбуки оснащаются многоядерными процессорами. Чтобы алгоритм 
заработал быстрее, необходимо преобразовать его в форму, подходящую 
для параллельного выполнения сразу на всех ядрах! 


Рассмотрим простой пример. Лучшее время выполнения для алгоритма 
сортировки равно приблизительно О(п Іор п). Известно, что массив не- 
возможно отсортировать за время О(п), если только не воспользоваться 
параллельным алгоритмом! Существует параллельная версия быстрой сор- 
тировки, которая сортирует массив за время О\(п). 


Параллельный алгоритм трудно разработать. И так же трудно убедиться 
в том, что он работает правильно, и понять, какой прирост скорости он 
обеспечивает. Одно можно заявить твердо: выигрыш по времени не линеен. 
Следовательно, если процессор вашего компьютера имеет два ядра вместо 
одного, из этого не следует, что ваш алгоритм по волшебству заработает 
вдвое быстрее. Это объясняется несколькими причинами. 


о Затраты ресурсов на управление параллелизмом — допустим, нужно 
отсортировать массив из 1000 элементов. Как разбить эту задачу для 
выполнения на двух ядрах? Выделить каждому ядру 500 элементов, 
азатем объединить два отсортированных массива в один большой отсор- 
тированный массив? Слияние двух массивов требует времени. 


о Распределение нагрузки — допустим, необходимо выполнить 10 задач, 
и вы назначаете каждому ядру 5 задач. Однако ядру А достаются все 
простые задачи, поэтому оно выполняет свою работу за 10 секунд, тогда 
как ядро В справится со сложными задачами только за минуту. Это оз- 
начает, что ядро А целых 50 секунд простаивает, пока ядро В выполняет 
всю работу! Как организовать равномерное распределение работы, чтобы 
оба ядра трудились с одинаковой интенсивностью? 


Если вас интересует теоретическая сторона производительности и мас- 
штабируемости, возможно, параллельные алгоритмы — именно то, что вам 
нужно! 
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МарКедисе 


Одна разновидность параллельных алгоритмов в последнее время становит- 
ся все более популярной: распределенные алгоритмы. Конечно, параллель- 
ный алгоритм удобно запустить на компьютере, если для его выполнения 
потребуется от двух до четырех ядер, а если нужны сотни ядер? Тогда ал- 
горитм записывается так, чтобы он мог выполняться на множестве машин. 
Алгоритм МарКедисе — известный представитель семейства распределен- 
ных алгоритмов. Для работы с ним можно воспользоваться популярной 
системой с открытым кодом Арасһе Найоор. 


Для чего нужны распределенные алгоритмы? 


Предположим, имеется таблица с миллиардами или триллионами запи- 
сей и вы хотите применить к ней сложный вопрос ЗОГ. Выполнить 
его в МУЗОГ. не удастся, потому что МуЗОГ. начнет «тормозить» уже 
после нескольких миллиардов записей. Используйте МарВе4исе через 
Надоор! 


Или, предположим, вам нужно обработать длинный список заданий. Об- 
работка каждого задания занимает 10 секунд, всего требует обработки 
1 миллион заданий. Если выполнять эту работу на одном компьютере, она 
займет несколько месяцев! Если бы ее можно было выполнить на 100 ма- 
шинах, работа завершилась бы за несколько дней. 


Распределенные алгоритмы хорошо работают в тех ситуациях, когда вам 
нужно выполнить большой объем работы и вы хотите сократить время ее 
выполнения. В основе технологии МарКедисе лежат две простые идеи: 
функция отображения тар и функция свертки гедисе. 


Функция тар 


Функция тар проста: она получает массив и применяет одну функцию 
к каждому элементу массива. Скажем, в следующем примере происходит 
удваивание каждого элемента в массиве: 


>>> агг1 = [1, 2, 3, 4, 5] 
>>> агг2 = мар(1атЬбда х: 2 * х, агг1) 
[2, 4, 6, 8, 10] 
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Массив агг2 теперь содержит значения [2, 4, 6, 8, 10] — все элементы 
агг1 увеличились вдвое! Удвоение выполняется достаточно быстро. Но 
представьте, что выполнение применяемой функции требует больше вре- 
мени. Взгляните на следующий псевдокод: 


# Список УВЕ 
тар (4омп1оа4_раре, агг1) 


>>> агг1 
>>> агг2 


Имеется список ОКІ-адресов, нужно загрузить каждую страницу и сохра- 
нить содержимое в агг2. Для каждого адреса загрузка занимает пару секунд. 
Для 1000 адресов потребуется пара часов! А теперь представьте, что у вас 
имеется 100 машин и тар автоматически распределяет работу между ними. 
Тогда в любой момент будут загружаться сразу 100 страниц одновременно, 
и работа пойдет намного быстрее! 


Функция гедисе 
Функция гедисе иногда сбивает людей с толку. Идея заключается в том, что 


весь список элементов «сокращается» до одного элемента. Напомню, что 
функция мар переходит от одного массива к другому. 


рч 


[2112 


С функцией гедисе массив преобразуется в один элемент. 
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М ни 
15 


Пример: 


>>> агг1 = [1, 2, 3, 4, 5] 
>>> гедисе(1атбда х,у: х+у, агг1) 
15 


В данном случае все элементы в массиве просто суммируются: 1+2+3+ 
4+5 = 15! Я не буду рассматривать свертку более подробно, потому что 
в Интернете хватает руководств по этой теме. 


МарВе4исе использует эти две простые концепции для выполнения запро- 
сов на нескольких машинах. При использовании большого набора данных 
(миллиарды записей) МарКВедисе выдаст ответ за минуты, тогда как тра- 
диционной базе данных на это потребуются многие часы. 


Фильтры Блума и Нурегіодіод 


Представьте себя на месте сайта Кейі. Когда пользователь публикует 
ссылку, нужно проверить, публиковалась ли эта ссылка ранее. Истории, 
которые еще не публиковались, считаются более ценными. 


Или представьте себя на месте поискового бота Соое. Обрабатывать веб- 
страницу нужно только в том случае, если она еще не обрабатывалась ранее. 
Итак, нужно проверить, обрабатывалась ли страница ранее. 


Или представьте себя на месте 6и.[у — сервиса сокращения Ч ВГ. Пользо- 
ватели не должны перенаправляться на вредоносные сайты. У вас имеется 
набор ОКІ -адресов, которые считаются вредоносными. Теперь нужно вы- 
яснить, не направляется ли пользователь на ОКІ -адрес из этого набора. 


Во всех этих примерах возникает одна проблема. Имеется очень большой 
набор данных. 
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Появляется новый объект, и вы хотите узнать, содержится ли он в суще- 
ствующем наборе. Эта задача быстро решается при помощи хеша. На- 
пример, представьте, что Соое создает большой хеш, ключами которого 
являются все обработанные страницы. 


Как узнать, обрабатывался ли сайт айї.і0? Нужно заглянуть в хеш. 


оф: — 25 


У а4йло имеется свой ключ в хеше, а значит, адрес уже обрабатывался. 
Среднее время обращения к элементам в хеш-таблице составляет 0(1). Та- 
ким образом, вы узнали о том, что страница а@йло уже проиндексирована 
за постоянное время. Неплохо! 
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Вот только этот хеш получится просто огромным. Соое индексирует трил- 
лионы веб-страниц. Если хеш содержит все ОВТ-адреса, индексируемые 
Соое, он займет слишком много места. У Веда и Бий.йу возникает ана- 
логичная проблема. Сталкиваясь с такими объемами данных, приходится 
действовать более изобретательно! 


Фильтры Блума 


Для решения проблемы можно воспользоваться вероятностными струк- 
турами данных, которые называются фильтрами Блума. Они дают ответ, 
который может оказаться ложным, но с большой вероятностью является 
правильным. Вместо того чтобы обращаться к хешу, вы спрашиваете 
у фильтра Блума, обрабатывался ли этот О ВТ.-адрес ранее. Хеш-таблица 
даст точный ответ. Фильтр Блума дает ответ, правильный с высокой ве- 
роятностью: 


О возможны ложно-положительные срабатывания. Фильтр скажет: «Этот 
сайт уже обрабатывался», хотя этого не было; 


О ложно-отрицательные срабатывания исключены. Если фильтр утверж- 
дает, что сайт не обрабатывался, вы можете быть в этом уверены. 


Фильтры Блума хороши тем, что занимают очень мало места. Хеш-таблице 
пришлось бы хранить все ОКІ -адреса, обрабатываемые Соозе, а фильтру 
Блума это не нужно. Фильтры Блума очень удобны тогда, когда не нужно 
хранить точный ответ (как во всех приведенных примерах). Например, 
ЬЛу может сказать: «Мы полагаем, что сайт может оказаться вредоносным, 
будьте особенно внимательны». 


Нурегіодіод 


Примерно так же действует другой алгоритм, который называется 
Нурег ов ов. Предположим, Соове хочет подсчитать количество уникаль - 
ных поисков, выполненных пользователями. Или Атахоп хочет подсчитать 
количество уникальных предметов, просмотренных пользователями за 
сегодняшний день. Для получения ответов на эти вопросы потребуется 
очень много места! Так, в примере с Соойе придется вести журнал всех 
уникальных вариантов поиска. Когда пользователь что-то ищет, вы сначала 
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проверяете, присутствует ли условие в журнале, и если нет, добавляете его. 
Даже для одного дня этот журнал получится гигантским. 


Нурегі ов ов аппроксимирует количество уникальных элементов в множе- 
стве. Как и фильтры Блума, он не дает точного ответа, но выдает достаточно 
близкий результат с использованием малой части памяти, которую обычно 
занимает такая задача. 


Если вы используете большие объемы данных и вас устраивают прибли- 
женные ответы — воспользуйтесь вероятностными алгоритмами! 


Алгоритмы ЅНА 


Помните процедуру хеширования из главы 5? На всякий случай освежу 
вашу память: имеется ключ, вы хотите поместить связанное с ним значение 
в массив. 


СООО АЕ 


0123ч5618910Ц 12 13 14 15 16 1 18 19 20 21 22 23 26 25 26 27 28 29 30 У 52 


Элемент, в котором размещается значение, определяется хеш-функцией. 


клю- 

КЛЮ- цу НА 

ЧИ НА Букву клю- кАЮ- 
БУКВУ «Б» ЧИ НА ЧИ НА 
А БУКВУ 

У КЛЮЧИ НА БУКВУ БУКВ 
| / увы «в» РА 
0102345618910 Ц 12 13 14 15 16 13 18 19 20 21 22 253 24 25 26 23 28 28 350 \ 32 


Значение сохраняется в соответствующей позиции массива. 


АПЕЛЬСИНЫ 7 
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Хеширование позволяет выполнять поиск с постоянным временем. Когда 
вам потребуется узнать значение, связанное с ключом, вы снова применя- 
ете хеш-функцию, и она за время О(1) сообщает, какую позицию следует 
проверить. 


Хеш-функция должна обеспечивать достаточно равномерное распреде- 
ление. Итак, хеш-функция получает строку и возвращает номер ячейки, 
соответствующий этой строке. 


Сравнение файлов 


Одну из разновидностей хеш-функций составляет алгоритм ЗНА (Ѕесиге 
Наѕћ АІеогііћт). Он получает строку и возвращает хеш-код этой строки. 


ео” => 0с 244Ъ 


Возможно, терминология не настолько проста, насколько хотелось бы. 
Алгоритм ЗНА — хеш-функция; эта функция генерирует хеш-код, кото- 
рый представляет собой короткую строку. Хеш-функция для хеш-таблиц 
преобразует строку в индекс массива, тогда как ЗНА преобразует строку 
в другую строку. 


Для каждой строки алгоритм ЭНА генерирует свой уникальный хеш-код. 


“ео” => 2сЁ24-аЪ_ 


“алдохі м"? > ЬЛеЬ2ес.. 
“ 2.55 лид 78 > Бе %%4 94 рет 


ПРИМЕЧАНИЕ 


Хеш-коды ЅНА достаточно длинные. Здесь приводится только начало. 
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Алгоритм ЗНА позволяет определить, совпадают ли два файла. Такая воз- 
можность особенно полезна для очень больших файлов. Допустим, у вас 
имеется 4-гигабайтный файл и вы хотите проверить, хранится ли у вашего 
друга точно такой же файл. Вам не придется пересылать большой файл по 
электронной почте; вместо этого можно вычислить хеш-коды ЗНА двух 
файлов и сравнить их. 


ФМЛ 


ЕГО ФАЙЛ 
Е [Еве] 
ълВ зая ЕГО ХЕШ-од 
м 


ОПИНАКОВЫЕ ХЕШ-КОЛЫ, 
О.ПИНАКОВЫЕ ФАЙЛЫ! 


Проверка паролей 


Алгоритм ЗНА также может использоваться для сравнения строк при от- 
сутствии информации об исходной строке. Например, только представьте, 
что сервис Стаі атакован хакерами! Ваш пароль стал добычей злоумыш- 
ленников? А вот и нет. Сооёе хранит не исходный пароль, а только хеш-код 
пароля по алгоритму ЗНА! Когда вы вводите пароль, Соов]е хеширует его 
и сравнивает результат с хеш-кодом, хранящимся в базе данных. 


= у/ 


аьа" “6 6619 ә 


АШ ПАРОЛЬ = ХЕШ-КОП ХЕЦ-КОПЫ С08- 
ПАРОЛЯ СРАВНИВАЕТСЯ и 
С ХЕШ-КОЛОМ, 
ХРАНЯЩИМСЯ 


8 БАЗЕ ПАННЫХ 
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Сравниваются только хеш-коды — хранить пароль не нужно! Алгоритм 
ЗНА очень часто используются для хеширования паролей. Хеширование 
является односторонним: вы можете получить хеш-код строки... 


аЬс123 —> бсо134 


.-но не сможете восстановить исходную строку по хеш-коду: 
Г <— 6са134, 


Это означает, что даже если злоумышленник похитит хеш-коды ЗНА с сер- 
веров Стаії, он не сможет по ним восстановить исходные пароли! Пароль 
можно преобразовать в хеш, но не наоборот. 


Под термином ЗНА скрывается целое семейство алгоритмов: ЗНА-0, ЗНА-1, 
ЅНА-2 и ЗНА-3. На момент написания книги в алгоритмах ЅНА-0 и ЗНА-1 
были обнаружены слабости. Если вы применяете алгоритм ЗНА для хеши- 
рования паролей, выбирайте ЅНА-2 или ЗНА-3. В настоящее время «золо- 
тым стандартом» хеширования паролей считается функция Бсгурё (хотя 
идеальной защиты не бывает). 


Локально-чувствительное хеширование 


У хеширования ЗНА есть еще одна важная особенность: оно является 
локально-нечувствительным. Предположим, имеется строка, для которой 
генерируется хеш-код: 


954 —> «46351 


Если изменить в строке всего один символ, а потом сгенерировать хеш за- 
ново, строка полностью изменяется! 
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И это хорошо, потому что сравнение хешей не позволит атакующему опре- 
делить, насколько он близок к взлому пароля. 


Иногда требуется обратный результат: локально-чувствительная функция 
хеширования. Здесь на помощь приходит алгоритм 5йпразй. При незначи- 
тельном изменении строки ЗипразЬ генерирует хеш-код, который почти не 
отличается от исходного. Это позволяет сравнивать хеш-коды и определять, 
насколько похожи две строки, — весьма полезная возможность! 


о Соое использует Ѕітћаѕћ для выявления дубликатов в процессе ин- 
дексирования. 


о Преподаватель может использовать Ѕітһаѕћ для обнаружения плагиата 
(копирования рефератов из Интернета). 


о $сгіБа позволяет пользователям загружать документы или книги, чтобы 
они стали доступны для других пользователей. Но $сгіБа не хочет, чтобы 
пользователи размещали информацию, защищенную авторским правом! 
С помощью Ѕітћаѕћ сайт может обнаружить, что отправленная инфор- 
мация похожа на книгу о Гарри Поттере, и при обнаружении сходства 
автоматически запретить ее размещение. 


Ѕіпћаѕһћ используется для выявления сходства между фрагментами текста. 


Обмен ключами Диффи—Хеллмана 


Алгоритм Диффи-—Хеллмана заслуживает упоминания, потому что он 
изящно решает давно известную задачу. Как зашифровать сообщение 
так, чтобы его мог прочитать только тот человек, которому адресовано 
сообщение? 


Проще всего определить подстановочный шифр: а = 1, Б = 2 ит. д. Если 
после этого я отправлю вам сообщение <4,15,7», вы сможете преобразовать 
его в «4,0,8». Но чтобы эта схема сработала, необходимо согласовать шифр 
между сторонами. Договориться о шифре по электронной почте невозмож- 
но, потому что злоумышленник может перехватить сообщение, узнать шифр 
и расшифровать сообщения. Даже если передать п"ифр при личной встрече, 
злоумышленник может угадать шифр, если он достаточно прост. Значит, 
шифр придется ежедневно менять. Но тогда нам придется ежедневно про- 
водить личные встречи для изменения шифра! 
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Даже если вам удастся ежедневно изменять шифр, подобные простые шиф- 
ры достаточно легко взламываются методом грубой силы. Допустим, я вижу 
сообщение <9,6,13,13,16 24,16, 19,13,5>. Я предполагаю, что при шифровании 
используется подстановка а = 1, р = 2 ит. д. 


4 6 \2 13 16 24 16 \а \3 5 
уо оруу 
$5 МЕ 


ГР ММР я В 


Бессмыслица. Пробуем а = 2, Б = Зит. д. 


4 6 12 12 16 24 16 \ 13 5 
41440 фо ФЬ 
р 


пЕ шо м ок і 


Сработало! Подобные простые шифры взламываются достаточно легко. 
Во Вторую мировую войну в Германии использовался намного более слож- 
ный шифр, но и он был взломан. 


Алгоритм Диффи- Хеллмана решает обе проблемы: 


О знание шифра обеими сторонами не обязательно. Следовательно, им не 
придется встречаться и согласовывать шифр; 


и расшифровать зашифрованные сообщения чрезвычайно сложно. 


Алгоритм Диффи-—Хеллмана использует два ключа: открытый и закры- 
тый. Открытый ключ известен обеим сторонам. Его можно опубликовать 
на сайте, отправить электронной ‘почтой друзьям и вообще сделать с ним 
все, что вам заблагорассудится. Его не нужно скрывать. Когда другая 
сторона захочет отправить вам сообщение, она зашифрует его с примене- 
нием открытого ключа. Зашифрованное сообщение можно расшифровать 
только с закрытым ключом. При условии, что вы являетесь единственным 
владельцем закрытого ключа, никто другой расшифровать сообщение не 
сможет! 
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Алгоритм Диффи— Хеллмана продолжает применяться на практике вместе 
с его наследником КЅА. Если вы интересуетесь криптографией, алгоритм 
Диффи-Хеллмана станет хорошей отправной точкой: он элегантен и не 
особо сложен. 


Линейное программирование 


Самое лучшее я приберег напоследок. Линейное программирование — одна 
из самых интересных областей, которые мне известны. 


Линейное программирование используется для максимизации некоторой 
характеристики при заданных ограничениях. Предположим, ваша компа- 
ния выпускает два продукта: рубашки и сумки. На рубашку требуется 1 м 
ткани и 5 пуговиц. На изготовление сумки необходимо 2 м ткани и 2 пуго- 
вицы. У вас есть 11 м ткани и 20 пуговиц. Рубашка приносит прибыль $2, 
а сумка — $3. Сколько рубашек и сумок следует изготовить для получения 
максимальной прибыли? 


Здесь мы пытаемся максимизировать прибыль, а ограничения определяют 
количество имеющихся материалов. 


Другой пример: вы политик, пытающийся получить максимальное ко- 
личество голосов. Исследования показали, что на каждый голос жителя 
Сан-Франциско требуется примерно час работы (маркетинг, ясследования 
ит. д.), а на каждый голос жителя Чикаго — 1,5 часа. Вам нужны голоса 
как минимум 500 жителей Сан-Франциско и как минимум 300 жителей 
Чикаго. В вашем распоряжении 50 дней. Кроме того, затраты на жителя 
Сан-Франциско составляют $2, а на жителя Чикаго — $1. Ваш бюджет 
составляет $1500. Какое максимальное количество голосов вы сможете 
получить (Сан-Франциско+Чикаго)? 


На этот раз вы стремитесь к максимуму голосов при ограничениях по вре- 
мени и деньгам. | 


Возможно, вы думаете: «В этой книге много говорилось о вопросах оптими- 
зации. Как они связаны с линейным программированием?» Все алгоритмы, 
работающие с графами, могут быть реализованы средствами линейного 
программирования. Линейное программирование — намного более общая 
область, а задачи с графами составляют ее подмножество. 
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В линейном программировании используется симплекс-метод. Этот ал- 
горитм достаточно сложен, поэтому я не привожу его в книге. Если вы 
интересуетесь задачами оптимизации, поищите информацию о линейном 
программировании! 


Эпилог 


Надеюсь, этот краткий обзор показал, как много вам еще предстоит узнать. 
Я считаю, что лучший способ узнать что-то — найти тему, которая вас инте- 
ресует, и изучить ее. Надеюсь, эта книга закладывает достаточно надежную 
основу для этого. 


Ответы к упражнениям 


Глава 1 


1.1 


1.2 


1.3 


1.4 


1.5 


1.6 


Имеется отсортированный список из 128 имен, и вы ищете в нем зна- 
чение методом бинарного поиска. Какое максимальное количество 
проверок для этого может потребоваться? 


Ответ: 7 


Предположим, размер списка увеличился вдвое. Как изменится мак- 
симальное количество проверок? 


Ответ: 8 


Известна фамилия, нужно найти номер в телефонной книге. 
Ответ: О(105 п) 


Известен номер, нужно найти фамилию в телефонной книге. (Под- 
сказка: вам придется провести поиск по всей книге!) 


Ответ: О(п). 
Нужно прочитать номера всех людей в телефонной книге. 


Ответ: О(п). 


Нужно прочитать телефоны всех людей, фамилии которых начинают- 
ся с буквы «А». (Вопрос с подвохом! В нем задействованы концепции, 
которые более подробно рассматриваются в главе 4. Прочитайте от- 
вет — скорее всего, он вас удивит!) 
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Ответ: О(п). Возможно, кто-то подумает: «Я делаю это только для 
одной из 26 букв, а значит, время выполнения должно быть равно 
О(п/26).» Запомните простое правило: в «О-большое» игнорируются 
числа, задействованные в операциях сложения, вычитания, умно- 
жения или деления. Ни одно из следующих значений не является 
правильной записью «О-большое»: О(п + 26), О(п - 26), О(п * 26), 
О(п / 26). Все они эквивалентны О(п)! Почему? Если вам интересно, 
найдите раздел «Снова об “О-большом”» в главе 4 и прочитайте о кон- 
стантах в этой записи (константа — это просто число; в этом вопросе 
26 является константой). 


Глава 2 


2.1 Допустим, вы строите приложение для управления финансами. 


]. ПРОЛУКТЫ 
2, кино 


З. ъЕЛОСИПЕЛНЫЙ 
КЛУБ 


Ежедневно вы записываете все свои траты. В конце месяца вы анали- 
зируете расходы и вычисляете, сколько денег было потрачено. При 
работе с данными выполняется множество операций вставки и отно- 
сительно немного операций чтения. Какую структуру использовать — 
массив или список? 


Ответ: В данном случае траты добавляются в список ежедневно, 
а чтение всех данных происходит один раз в месяц. Для массивов 
характерно быстрое чтение и медленная вставка, а для связанных 
списков — медленное чтение и быстрая вставка. Так как вставка будет 
выполняться намного чаще, чем чтение, есть смысл воспользоваться 
связанным списком. Кроме того, чтение в связанных списках происхо- 
дит медленно только при обращении к случайным элементам списка. 
Так как читаться будут все элементы списка, связанный список также 
неплохо справится с чтением. Итак, связанный список станет хорошим 
решением этой задачи. 
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2.2 


2.3 


Ответы к упражнениям 


Допустим, вы пишете приложение для приема заказов от посетителей 
ресторана. Приложение должно хранить список заказов. Официанты 
добавляют заказы в список, а повара читают заказы из списка и вы- 
полняют их. Заказы образуют очередь: официанты добавляют заказы 
в конец очереди, а повар берет первый заказ из очереди и начинает 


ГОТОВИТЬ. 


ЕДЕ 


кина — ОЧЕРЕДЬ ЗАКАЗОВ — ПОВАР 

ОБАМ ЮТ аз КАЮТ 

змкАЗӘ 5 кое ОЧЕрь НАЧАЛЕ 
ОЗЕРЕ Реду 


Какую структуру данных вы бы использовали для реализации этой оче- 
реди — массив или связанный список? (Подсказка: связанные списки 
хорошо подходят для вставки /удаления, а массивы — для произволь- 
ного доступа к элементам. Что из этого понадобится в данном случае?) 


Ответ: Связанный список. Вставка происходит очень часто (офици- 
анты добавляют заказы), а связанные списки эффективно выполняют 
эту операцию. Ни поиск, ни произвольный доступ (сильные стороны 
массивов) вам не понадобятся, потому что повар всегда извлекает из 
очереди первый заказ. 


Проведем мысленный эксперимент. Допустим, ЕасебооК хранит 
список имен пользователей. Когда кто-то пытается зайти на сайт 
Еасероок, система пытается найти имя пользователя. Если имя входит 
в список имен зарегистрированных пользователей, то вход разреша- 
ется. Пользователи приходят на ЕасерооК достаточно часто, поэтому 
поиск по списку имен пользователей будет выполняться часто. Будем 
считать, что ЕасерооКк использует бинарный поиск для поиска в спи- 
ске. Бинарному поиску необходим произвольный доступ — алгоритм 
должен мгновенно обратиться к среднему элементу текущей части 
списка. Зная это обстоятельство, как бы вы реализовали список поль- 
зователей — в виде массива или связанного списка? 


2.4 


2.5 
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Ответ: В виде отсортированного массива. Массивы обеспечивают 
произвольный доступ — вы можете мгновенно получить элемент из 
середины массива. Со связанными списками это невозможно. Чтобы 
получить элемент из середины связанного списка, вам придется начать 
с первого элемента и переходить по ссылкам до нужного элемента. 


Пользователи также довольно часто создают новые учетные записи на 
ЕасеБоок. Предположим, вы решили использовать массив для хране- 
ния списка пользователей. Какими недостатками обладает массив для 
выполнения вставки? Допустим, вы используете бинарный поиск для 
нахождения учетных данных. Что произойдет при добавлении новых 
пользователей в массив? 


Ответ: Вставка в массив выполняется медленно. Кроме того, если вы 
используете бинарный поиск для нахождения имен пользователей, 
массив необходимо отсортировать. Предположим, пользователь по 
имени Аа В регистрируется на ЕасеБоок. Его имя будет вставлено 
в конец массива. Следовательно, массив нужно будет сортировать при 
каждой вставке нового имени! 


В действительности ЕасеБоок не использует ни массив, ни связанный 
список для хранения информации о пользователях. Рассмотрим ги- 
бридную структуру данных: массив связанных списков. Имеется мас- 
сив из 26 элементов. Каждый элемент содержит ссылку на связанный 
список. Например, первый элемент массива указывает на связанный 
список всех имен пользователей, начинающихся на букву «А». Второй 
элемент указывает на связанный список всех имен пользователей, на- 
чинающихся на букву «В», ит. д. 


СВЯЗАННЫЙ СПИСОК СО ВСЕМИ 


а .... Х ИМЕНАМИ ПОЛЬЗОВАТЕЛЕЙ 
|“ [Ао] = У НА БУКВУ «А» 


... № ИМЕНА ПОЛЬЗОВАТЕЛЕЙ 
НА БУКВУ «В» 


МАССИВ 


Предположим, пользователь с именем «Аі В» регистрируется 
в Расероок и вы хотите добавить его в список. Вы обращаетесь к эле- 
менту 1 массива, находите связанный список элемента 1 и добавляете 
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«АЕ В» в конец списка. Теперь предположим, что зарегистрировать 
нужно пользователя «7акћіг Н». Вы обращаетесь к элементу 26, ко- 
торый содержит связанный список всех имен, начинающихся с «/», 
и проверяете, присутствует ли «ГаКЫг Н» в этом списке. 


Теперь сравните эту гибридную структуру данных с массивами и свя- 
занными списками. Будет она быстрее или медленнее каждой исход- 
ной структуры при поиске и вставке? Приводить время выполнения 
«О-большое» не нужно, просто выберите одно из двух: быстрее или 
медленнее. 


Ответ: Поиск — медленнее, чем для массивов, и быстрее, чем для 
связанных списков. Вставка — быстрее, чем для массивов, и с такой же 
скоростью для связанных списков. Итак, гибридная структура уступа- 
ет массиву по скорости поиска, но по крайней мере не хуже связанных 
списков для всего остального. Далее в книге будет рассмотрена другая 
гибридная структура данных, называемая хеш-таблицей. Она даст не- 
которое представление о том, как строить сложные структуры данных 
из более простых. 


Что же в действительности использует сервис ЕасеБоок? Вероятно, 
десяток разных баз данных, за которыми стоят разные структуры 
данных: хеш-таблицы, в-деревья и т. д. Массивы и связанные списки 
становятся структурными элементами для построения более сложных 
структур данных. 


Глава 3 


3.1 


Предположим, имеется стек вызовов следующего вида: 


Что можно сказать о текущем состоянии программы на основании 
этого стека вызовов? 
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Ответ: Некоторые наблюдения, о которых вы могли бы упомянуть: 
• сначала вызывается функция вгее* для переменной пате = тарріе; 


• затем функция вгее* вызывает функцию ргее*2 для переменной 
паме = тавріе; 


• на этой стадии функция ргееї находится в незавершенном, при- 
остановленном состоянии; 


• текущим вызовом функции является вызов ргее{2; 


• после завершения этого вызова функция Бгееї продолжит выпол- 
нение. 


3.2 Предположим, вы случайно написали рекурсивную функцию, которая 
бесконечно вызывает саму себя. Как вы уже видели, компьютер вы- 
деляет память в стеке при каждом вызове функции. А что произойдет 
со стеком при бесконечном выполнении рекурсии? 

Ответ: Стек будет расти бесконечно. Каждой программе выделяется 
ограниченный объем памяти в стеке. Когда все пространство будет 
исчерпано (а рано или поздно это произойдет), программа завершится 
с ошибкой переполнения стека. 
Глава 4 
4.1 Напишите код для функции ѕим (см. выше). 
Ответ: 
4е+ ѕит(115+): 
4+ 115 == []: 
геїигп 0 
геигп 1154[0] + ѕит(1151[1:]) 
4.2 Напишите рекурсивную функцию для подсчета элементов в списке. 


Ответ: 


де+ соип{ (1151): 
ЇҒ 1151 == []: 
геїигп 0 
геёигп 1 + соип+(1151[1:1]) 
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4.3 


4.4 
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Найдите наибольшее число в списке. 


Ответ: 


де+ тах(1151): 
1+ 1еп(1151) == 2: 
гефигп 1154[0] 1+ 11$4[0] > 1151[1] е15е 1151[1] 
$и6_тах = тах(115+[1:]) 
геёигп 11$4[0] 1+ 11$4[0] > зи6 мах е1ѕе зи б тах 


Помните бинарный поиск из главы 1? Он тоже относится к классу ал- 
горитмов «разделяй и властвуй». Сможете ли вы определить базовый 
и рекурсивный случай для бинарного поиска? 


Ответ: Базовым случаем для бинарного поиска является массив, 
содержащий всего один элемент. Если искомый элемент совпадает 
с элементом массива – вы нашли его! В противном случае элемент 
в массиве отсутствует. 


В рекурсивном случае для бинарного поиска массив делится пополам, 
одна половина отбрасывается, а для другой половины проводится 
бинарный поиск. 


Запишите «О-большое» для каждой из следующих операций. 


4.5 


4.6 


4.7 


4.8 


Вывод значения каждого элемента массива. 


Ответ: О(п). 


Удвоение значения каждого элемента массива. 


Ответ: О(п). 


Удвоение значения только первого элемента массива. 


Ответ: О(1). 


Создание таблицы умножения для всех элементов массива. Например, 
если массив состоит из элементов [2, 3, 7, 8, 10], сначала каждый эле- 
мент умножается на 2, затем каждый элемент умножается на 3, затем 
на 7 ит. д. 


Ответ: О(п?). 
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Глава 5 
Какие из следующих функций являются последовательными? 


5.1 +(х) = 1 Ф666 Возвращает "1" для любых входных значений 


Ответ: Функция последовательна. 


5.2 #(х) = гапа() ж--------------.----- Возвращает случайное число 
Ответ: Функция непоследовательна. 


Возвращает индекс следующего 


5.3 +00 = пехї_епрёу 5100) < пустого элемента в хеш-таблице 


Ответ: Функция непоследовательна. 


5.4 #(х) = 1еп(х) ж Возвращает длину полученной строки 
Ответ: Функция последовательна. 


Предположим, имеются четыре хеш-функции, которые получают 
строки. 


1. Первая функция возвращает «1» для любого входного значения. 
2. Вторая функция возвращает длину строки в качестве индекса. 


З. Третья функция возвращает первый символ строки в качестве ин- 
декса. Таким образом, все строки, начинающиеся с «а», хешируются 
в одну позицию, все строки, начинающиеся с «Б», — в другую ит. д. 


4. Четвертая функция ставит в соответствие каждой букве про- 
стое число: а = 2, Ь = 3, с = 5, 4 = 7, е = 11 ит. д. Для строки хеш- 
функцией становится остаток от деления суммы всех значений на 
размер хеша. Например, если размер хеша равен 10, то для строки 
«Бар» будет вычислен индекс 3 + 2 + 17 % 10 = 22 % 10 = 2. 


В каком из этих примеров хеш-функции будут обеспечивать хорошее рас- 
пределение? Считайте, что хеш-таблица содержит 10 элементов. 


5.5 Телефонная книга, в которой ключами являются имена, а значениями — 
номера телефонов. Задан следующий список имен: Е ег, Веп, ВоВ, Рап. 


Ответ: Хеш-функции С и О обеспечивают хорошее распределение. 
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5.6 Связь размера батарейки с напряжением. Размеры батареек: А, АА, 
ААА, АААА. 


Ответ: Хеш-функции В и О обеспечивают хорошее распределение. 


5.7 Связь названий книг с именами авторов. Названия книг: «Маиз», «Рип 
Ноте», «ЖМаёсһтеп». 


Ответ: Хеш-функции В, С и О обеспечивают хорошее распределение. 


Глава 6 


Примените алгоритм поиска в ширину к каждому из этих графов, чтобы 
найти решение. 


6.1 Найдите длину кратчайшего пути от начального до конечного узла. 


КОНЕЦ 


НАЧАЛО 


Ответ: Длина кратчайшего пути равна 2. 


6.2 Найдите длину кратчайшего пути от «сађ» к «Баѓ». 


МАТ 


НАЧАЛО 


Ответ: Длина кратчайшего пути равна 2. 
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6.3 Перед вами небольшой граф моего утреннего распорядка. 


СНУТЬСЯ 


ТРАКАТЬ 


Для каждого из следующих трех списков укажите, действителен ОН 
или недействителен. 


А. 5, С. 
1. ЛРОСНУТЬСЯ 1. ЛРОСНУТЬСЯ 1. ПРИНЯТЬ ДУШ 
2. ПРИНЯТЬ ДУШ 2. ПОЧИСТИТЬ ЗУБЫ 2. ПРОСНУТЬСЯ 
3. ЛОЗАВТРАКАТЬ 3. ПОЗАВТРАКАТЬ 3. ПОЧИСТИТЬ ЗУБЫ 
4. ЛОЧИСТИТЬ ЗУБЫ 4. ПРИНЯТЬ ДУШ 4. ПОЗАВТРАКАТЬ 


Ответы: А — недействителен; В — действителен; С — недействителен. 


6.4 Немного увеличим исходный граф. Постройте действительный список 
для этого графа. 


ОДЕТЬСЯ 


УПАКОВАТЬ 
ОБЕД. 


Ответ: 1 — Проснуться; 2 — Сделать зарядку; 3 — Принять душ; 4 — 
Почистить зубы; 5 — Одеться; 6 — Упаковать обед; 7 — Позавтракать. 


284 Ответы к упражнениям 


6.5 Какие из следующих графов также являются деревьями? 


А. 8. С. 


Ответы: А — дерево; В — не дерево; С — дерево. В последнем примере 
дерево просто повернуто набок. Деревья составляют подкатегорию 
графов, поэтому любое дерево является графом, но граф не обязатель- 
но является деревом. 


Глава 7 


7.1 Каков вес кратчайшего пути от начала до конца в каждом из следую- 
щих графов? 


НАЧАЛО КОНЕЦ 
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Ответы: А — 8; В — 60; С — каверзный вопрос (кратчайший путь не 
существует из-за наличия цикла с отрицательным весом). 


Глава 8 


8.1 


8.2 


8.3 


8.4 


8.5 


Вы работаете в фирме по производству мебели и поставляете мебель 
по всей стране. Коробки с мебелью размещаются в грузовике. Все 
коробки имеют разный размер, и вы стараетесь наиболее эффективно 
использовать доступное пространство. Как выбрать коробки для того, 
чтобы загрузка имела максимальную эффективность? Предложите 
жадную стратегию. Будет ли полученное решение оптимальным? 


Ответ: Жадная стратегия заключается в том, чтобы выбрать самую 
большую коробку, помещающуюся в оставшемся пространстве, и по- 
вторять это до тех пор, пока еще можно выбрать хотя бы одну коробку. 
Нет, такое решение оптимальным не будет. 


Вы едете в Европу, и у вас есть 7 дней на знакомство с достоприме- 
чательностями. Вы присваиваете каждой достопримечательности 
стоимость в баллах (насколько вы хотите ее увидеть) и оцениваете 
продолжительность поездки. Как обеспечить максимальную стоимость 
(увидеть все самое важное) во время поездки? Предложите жадную 
стратегию. Будет ли полученное решение оптимальным? 


Ответ: Выбирайте достопримечательность с наибольшей стоимостью 
В баллах, которую вы успеете посетить в оставшееся время. Остано- 
витесь, когда таких достопримечательностей не останется. Нет, такое 
решение оптимальным не будет. 


Для каждого из приведенных ниже алгоритмов укажите, является ли 
этот алгоритм жадным или нет. 


Быстрая сортировка. 
Ответ: Нет. 

Поиск в ширину. 
Ответ: Да. 
Алгоритм Дейкстры. 


Ответ: Да. 
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8.6 


8.7 


8.8 
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Почтальон должен доставить письма в 20 домов. Ему нужно найти 
кратчайший путь, проходящий через все 20 домов. Является ли эта 
задача МР-полной? 


Ответ: Да. 


Имеется задача поиска максимальной клики в множестве людей (кли- 
кой называется множество людей, каждый из которых знаком со всеми 
остальными.) Является ли эта задача МР-полной? 


Ответ: Да. 


Вы рисуете карту США, на которой два соседних штата не могут быть 
окрашены в одинаковый цвет. Требуется найти минимальное количе- 
ство цветов, при котором любые два соседних штата будут окрашены 
в разные цвета. Является ли эта задача МР-полной? 


Ответ: Да. 


Глава 9 


9.1 


9.2 


Предположим, к предметам добавился еще один: МРЗ-плеер. Он весит 
1 фунт и стоит $1000. Стоит ли брать его? 


Ответ: Да. Вы сможете положить в рюкзак МРЗ-плеер, іРћопе и ги- 
тару общей стоимостью $4500. 


Предположим, что вы собираетесь в турпоход. Емкость вашего рюк- 
зака составляет 6 фунтов, и вы можете взять предметы из следующего 
списка. У каждого предмета имеется стоимость; чем она выше, тем 
важнее предмет: 


• Вода, З фунта, 10 

• Книга, 1 фунт, З 

• Еда, 2 фунта, 9 

• Куртка, 2 фунта, 5 

• Камера, 1 фунт, 6 

Как выглядит оптимальный набор предметов для похода? 


Ответ: Возьмите воду, еду и камеру. 


9.3 
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Нарисуйте и заполните таблицу для вычисления самой длинной об- 
щей подстроки между строками Ве и сіиез. 


Ответ: 


Глава 10 


10.1 


10.2 


В примере с Мех сходство между двумя пользователями оцени- 
валось по формуле расстояния. Но не все пользователи оценивают 
фильмы одинаково. Допустим, есть два пользователя, Йоги и Пинки, 
вкусы которых совпадают. Но Йоги ставит 5 баллов любому фильму, 
который ему понравился, а Пинки более разборчива и ставит «пятер- 
ки» только самым лучшим фильмам. Вроде бы вкусы одинаковые, но 
по метрике расстояния они не являются соседями. Как учесть разли- 
чия в стратегиях выставления оценок? 


Ответ: Можно воспользоваться нормализацией: вы вычисляете сред- 
нюю оценку для каждого человека и используете ее для масштабиро- 
вания оценок. Например, вы определили, что средняя оценка Пинки 
равна 3, а средняя оценка Йоги - 3,5. Соответственно оценки Пинки 
немного увеличиваются так, чтобы ее средняя оценка тоже была равна 
3,5. После этого оценки можно сравнивать по единой шкале. 


Предположим, Мех определяет группу «авторитетов». Скажем, 
Квентин Тарантино и Уэс Андерсон относятся к числу авторитетов 
Ме Их, поэтому их оценки оказывают более сильное влияние, чем 
оценки рядовых пользователей. Как изменить систему рекомендаций, 
чтобы она учитывала повышенную ценность оценок авторитетов? 
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10.3 


Ответы к упражнениям 


Ответ: При применении алгоритма А ближайших соседей можно уве- 
личить вес оценок авторитетов. Предположим, у вас трое соседей: Джо, 
Дэйв и Уэс Андерсон (авторитет.) Они поставили фильму «Гольф-клуб» 
оценки 3, 4 и 5 соответственно. Вместо того чтобы вычислять среднее 
арифметическое их оценок (3 + 4 + 5 /3 = 4 звезды), вы просто по- 
вышаете вес оценки Уэса Андерсона: 3 +4+5+5+5/5 = 4,4 звезды. 


У сервиса Ме{йх миллионы пользователей. В приведенном ранее 
примере рекомендательная система строилась для пяти ближайших 
соседей. Пять — это слишком мало? Слишком много? 


Ответ: Слишком мало. Если ограничиться малым числом соседей, 
существует высокая вероятность того, что результаты будут искаже- 
ны. Существует хорошее эмпирическое правило: для № пользователей 
следует рассматривать 547 ( №) соседей. 


Грокаем 


алгоритмы 


Иллюстрированное пособие 
для программистов и любопытствующих 


Адитья Бхаргава 0 


Алгоритмы — это всего лишь 
пошаговые алгоритмы решения 
задач, и большинство таких задач 
уже были кем-то решены, 
протестированы и проверены. 
Можно, конечно, погрузиться 

в глубокую философию гениального 
Кнута, изучить многостраничные 
фолианты с доказательствами 

и обоснованиями, но хотите ли вы 
тратить на это свое время? 


Откройте великолепно 
иллюстрированную книгу, 

и вы сразу поймете, 

что алгоритмы — это просто. 
А грокать алгоритмы — 

это веселое и увлекательное 
занятие. 
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